論文の概要: PANER: A Paraphrase-Augmented Framework for Low-Resource Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2510.17720v1
- Date: Mon, 20 Oct 2025 16:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.530214
- Title: PANER: A Paraphrase-Augmented Framework for Low-Resource Named Entity Recognition
- Title(参考訳): PANER:低リソース名前付きエンティティ認識のためのパラフレーズ拡張フレームワーク
- Authors: Nanda Kumar Rengarajan, Jun Yan, Chun Wang,
- Abstract要約: 我々は、従来のITアプローチの原則を組み合わせて、最近の最先端のLLMの大きなコンテキストウインドウを活用する軽量な数ショットのNERフレームワークを提示します。
ベンチマーク・データセットを用いた実験により,本手法は,数ショット・ゼロショットタスクにおける最先端モデルに匹敵する性能が得られることが示された。
- 参考スコア(独自算出の注目度): 9.164874578520722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) is a critical task that requires substantial annotated data, making it challenging in low-resource scenarios where label acquisition is expensive. While zero-shot and instruction-tuned approaches have made progress, they often fail to generalize to domain-specific entities and do not effectively utilize limited available data. We present a lightweight few-shot NER framework that addresses these challenges through two key innovations: (1) a new instruction tuning template with a simplified output format that combines principles from prior IT approaches to leverage the large context window of recent state-of-the-art LLMs; (2) introducing a strategic data augmentation technique that preserves entity information while paraphrasing the surrounding context, thereby expanding our training data without compromising semantic relationships. Experiments on benchmark datasets show that our method achieves performance comparable to state-of-the-art models on few-shot and zero-shot tasks, with our few-shot approach attaining an average F1 score of 80.1 on the CrossNER datasets. Models trained with our paraphrasing approach show consistent improvements in F1 scores of up to 17 points over baseline versions, offering a promising solution for groups with limited NER training data and compute power.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、かなりアノテートされたデータを必要とする重要なタスクであり、ラベル取得が高価である低リソースのシナリオでは難しい。
ゼロショットと命令チューニングのアプローチは進歩してきたが、ドメイン固有のエンティティへの一般化に失敗し、利用可能な限られたデータを有効に利用しないことが多い。
1) 従来のITアプローチと組み合わせて,最新のLCMの大きなコンテキストウインドウを活用する,簡易なアウトプットフォーマットを備えた新しいインストラクションチューニングテンプレート,2) 周囲のコンテキストを表現しながらエンティティ情報を保存し,セマンティックな関係を損なうことなくトレーニングデータを拡張する,戦略的データ拡張技術を導入する。
ベンチマークデータセットを用いた実験により,我々の手法は,CrossNERデータセット上でのF1スコアの平均80.1を達成し,少数ショットおよびゼロショットタスクにおける最先端モデルに匹敵する性能を達成できた。
パラフレージングアプローチでトレーニングされたモデルは、ベースラインバージョンよりも最大17ポイントのF1スコアが一貫した改善を示し、限られたNERトレーニングデータと計算能力を持つグループに対して有望なソリューションを提供する。
関連論文リスト
- CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。
提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。
初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-19T17:57:36Z) - Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。
本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。
都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:23:29Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Enhancing Few-shot NER with Prompt Ordering based Data Augmentation [59.69108119752584]
本稿では,PODA(Prompt Ordering Based Data Augmentation)手法を提案する。
3つのパブリックNERデータセットの実験結果とさらなる分析により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-19T16:25:43Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。