論文の概要: Small Language Model Makes an Effective Long Text Extractor
- arxiv url: http://arxiv.org/abs/2502.07286v1
- Date: Tue, 11 Feb 2025 06:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:15.527649
- Title: Small Language Model Makes an Effective Long Text Extractor
- Title(参考訳): 有効な長文エクストラクタを作る小言語モデル
- Authors: Yelin Chen, Fanjin Zhang, Jie Tang,
- Abstract要約: 名前付きエンティティ認識(NER)は自然言語処理(NLP)の基本問題である
本稿では,SeNERと呼ばれる軽量なスパンベースNER手法を提案する。
長いテキストを効果的に埋め込むために、[]トークンにLogN-Scalingと結合した双方向の矢印アテンション機構が組み込まれています。
3つの長いNERデータセットで最先端の抽出精度を実現し、GPUメモリフレンドリな方法で長いテキストからエンティティを抽出することができる。
- 参考スコア(独自算出の注目度): 10.886875977716608
- License:
- Abstract: Named Entity Recognition (NER) is a fundamental problem in natural language processing (NLP). However, the task of extracting longer entity spans (e.g., awards) from extended texts (e.g., homepages) is barely explored. Current NER methods predominantly fall into two categories: span-based methods and generation-based methods. Span-based methods require the enumeration of all possible token-pair spans, followed by classification on each span, resulting in substantial redundant computations and excessive GPU memory usage. In contrast, generation-based methods involve prompting or fine-tuning large language models (LLMs) to adapt to downstream NER tasks. However, these methods struggle with the accurate generation of longer spans and often incur significant time costs for effective fine-tuning. To address these challenges, this paper introduces a lightweight span-based NER method called SeNER, which incorporates a bidirectional arrow attention mechanism coupled with LogN-Scaling on the [CLS] token to embed long texts effectively, and comprises a novel bidirectional sliding-window plus-shaped attention (BiSPA) mechanism to reduce redundant candidate token-pair spans significantly and model interactions between token-pair spans simultaneously. Extensive experiments demonstrate that our method achieves state-of-the-art extraction accuracy on three long NER datasets and is capable of extracting entities from long texts in a GPU-memory-friendly manner. Code: https://github.com/THUDM/scholar-profiling/tree/main/sener
- Abstract(参考訳): 名前付きエンティティ認識(NER)は自然言語処理(NLP)の基本問題である。
しかし、拡張テキスト(eg, homepages)から長いエンティティスパン(eg, awards)を抽出する作業は、ほとんど調査されていない。
現在のNERメソッドは主に、スパンベースのメソッドとジェネレーションベースのメソッドの2つのカテゴリに分類される。
スパンベースの手法では、可能なトークンペアスパンを列挙し、次に各スパンの分類を行い、かなりの冗長な計算と過剰なGPUメモリ使用率をもたらす。
対照的に、ジェネレーションベースの手法は、下流のNERタスクに適応するために、大きな言語モデル(LLM)を誘導または微調整する。
しかし、これらの手法は長いスパンの正確な生成に苦慮し、しばしば効果的な微調整のためにかなりの時間的コストがかかる。
これらの課題に対処するため,SeNERと呼ばれる軽量なスパンベースのNER手法を導入し,長文を効果的に埋め込むために,[CLS]トークンにLogN-Scalingと結合した双方向アローアテンション機構を導入し,冗長な候補トークンペアスパンを著しく削減し,トークンペアスパン間の相互作用をモデル化する新しい双方向スライディングウィンドウプラスアテンション(BiSPA)機構を備える。
大規模な実験により,提案手法は3つの長いNERデータセットに対して最先端抽出精度を達成し,GPUメモリに優しい方法で長文からエンティティを抽出できることが実証された。
コード:https://github.com/THUDM/scholar-profiling/tree/main/sener
関連論文リスト
- Reinforcement Learning with Token-level Feedback for Controllable Text Generation [16.117006822479407]
token-Level rewards for controllable text generationを定式化するTOLEという新しい強化学習アルゴリズムを提案する。
実験結果から,本アルゴリズムは単一属性と複数属性の制御タスクにおいて,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T08:18:37Z) - Explaining Interactions Between Text Spans [50.70253702800355]
入力の異なる部分からのトークンのスパンに対する推論は、自然言語理解に不可欠である。
NLUタスク2つのタスク(NLIとFC)に対する人間間相互作用の説明データセットであるSpanExを紹介する。
次に,複数の微調整された大言語モデルの決定過程を,スパン間の相互接続の観点から検討する。
論文 参考訳(メタデータ) (2023-10-20T13:52:37Z) - Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文 参考訳(メタデータ) (2023-06-12T03:28:33Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - SpanProto: A Two-stage Span-based Prototypical Network for Few-shot
Named Entity Recognition [45.012327072558975]
名前付きエンティティ認識(NER)は、アノテーション付きデータが少ない名前付きエンティティを識別することを目的としている。
そこで本研究では,2段階のアプローチを用いて,数発のNERに対処するセミナルスパンベースプロトタイプネットワーク(SpanProto)を提案する。
スパン抽出の段階では、逐次タグを大域境界行列に変換し、モデルが明示的な境界情報に集中できるようにする。
分類に言及するために、原型学習を活用してラベル付きスパンのセマンティック表現をキャプチャし、新しいクラスエンティティへの適応性を向上する。
論文 参考訳(メタデータ) (2022-10-17T12:59:33Z) - Propose-and-Refine: A Two-Stage Set Prediction Network for Nested Named
Entity Recognition [13.010064498077863]
ネストしたNERのための2段階セット予測ネットワークであるPropose-and-Refine Network(PnRNet)を提案する。
提案段階では,大まかなエンティティ予測をエンティティ提案として生成するために,スパンベースの予測器を用いる。
洗練された段階では、提案は相互に相互作用し、よりリッチな文脈情報を提案表現に組み込む。
PnRNetは4つのネストされたNERデータセットと1つのフラットなNERデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-04-27T06:58:45Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Locate and Label: A Two-stage Identifier for Nested Named Entity
Recognition [9.809157050048375]
名前付きエンティティ認識のための2段階エンティティ識別子を提案する。
まず、シードスパンのフィルタリングと境界回帰によってスパン提案を生成し、エンティティの特定を行い、それに対応するカテゴリで境界調整スパン提案をラベル付けする。
本手法は,訓練中のエンティティの境界情報と部分マッチングスパンを効果的に活用する。
論文 参考訳(メタデータ) (2021-05-14T12:52:34Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。