論文の概要: Neurobiber: Fast and Interpretable Stylistic Feature Extraction
- arxiv url: http://arxiv.org/abs/2502.18590v1
- Date: Tue, 25 Feb 2025 19:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:07.096241
- Title: Neurobiber: Fast and Interpretable Stylistic Feature Extraction
- Title(参考訳): Neurobiber:高速かつ解釈可能な立体的特徴抽出
- Authors: Kenan Alkiek, Anna Wegmann, Jian Zhu, David Jurgens,
- Abstract要約: Neurobiberは、高速で解釈可能なスタイルのプロファイリングのためのトランスフォーマーベースのシステムである。
オープンソースのBiberPlusライブラリから96のBiberスタイルの機能を予測する。
Neurobiberは、広範なリトレーニングなしでPAN 2020オーサシップ検証タスクで競争力を発揮する。
- 参考スコア(独自算出の注目度): 15.536190946608453
- License:
- Abstract: Linguistic style is pivotal for understanding how texts convey meaning and fulfill communicative purposes, yet extracting detailed stylistic features at scale remains challenging. We present Neurobiber, a transformer-based system for fast, interpretable style profiling built on Biber's Multidimensional Analysis (MDA). Neurobiber predicts 96 Biber-style features from our open-source BiberPlus library (a Python toolkit that computes stylistic features and provides integrated analytics, e.g., PCA and factor analysis). Despite being up to 56 times faster than existing open source systems, Neurobiber replicates classic MDA insights on the CORE corpus and achieves competitive performance on the PAN 2020 authorship verification task without extensive retraining. Its efficient and interpretable representations readily integrate into downstream NLP pipelines, facilitating large-scale stylometric research, forensic analysis, and real-time text monitoring. All components are made publicly available.
- Abstract(参考訳): 言語的スタイルは、テキストがどのように意味を伝達し、コミュニケーション目的を満たすかを理解する上で重要なものであり、しかしながら、大規模に詳細な様式的特徴を抽出することは依然として困難である。
本稿では,Biberの多次元解析(MDA)に基づく高速かつ解釈可能なスタイルプロファイリングシステムであるNeurobiberを紹介する。
Neurobiberは、オープンソースのBiberPlusライブラリ(スタイリスティックな特徴を計算し、統合分析、例えばPCA、ファクター分析を提供するPythonツールキット)から96のBiberスタイルの機能を予測する。
既存のオープンソースシステムよりも最大56倍高速であるにもかかわらず、NeurobiberはCOREコーパスに関する古典的なMDAの洞察を再現し、広範なリトレーニングなしにPAN 2020オーサシップ検証タスク上での競争的なパフォーマンスを達成する。
その効率的かつ解釈可能な表現は、下流のNLPパイプラインに容易に統合され、大規模なスタイリスティックな研究、法科学分析、リアルタイムテキスト監視を容易にする。
すべてのコンポーネントが公開されています。
関連論文リスト
- DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - SeqMate: A Novel Large Language Model Pipeline for Automating RNA Sequencing [0.0]
SeqMateは、大規模言語モデル(LLM)のパワーを活用してワンクリック分析を可能にするツールで、データ準備と分析の両方を自動化する。
生成AIの力を利用することで、SeqMateはこれらの発見を分析し、制御/制御/ユーザプロンプトされた遺伝子について書かれたレポートを作成することができる。
論文 参考訳(メタデータ) (2024-07-02T20:28:30Z) - GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文 参考訳(メタデータ) (2024-06-20T17:57:51Z) - Riveter: Measuring Power and Social Dynamics Between Entities [20.672174024510745]
Riveterはテキストコーパスのエンティティに関連する動詞の意味を分析するための完全なパイプラインを提供する。
このパッケージには感情、力、エージェンシーといった意味の枠組みが組み込まれており、社会現象を捉えるのに有用であることが示されている。
論文 参考訳(メタデータ) (2023-12-15T05:03:24Z) - Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate
NLP Pipelines [0.0]
本稿では,ハンガリーにおける産業レベルのテキスト処理モデルについて述べる。
モデルはspurCyフレームワークで実装され、HuSpaCyツールキットを拡張した。
すべての実験は再現可能であり、パイプラインはパーミッシブライセンスの下で自由に利用できる。
論文 参考訳(メタデータ) (2023-08-24T08:19:51Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。