論文の概要: Enhancing Hindi NER in Low Context: A Comparative study of Transformer-based models with vs. without Retrieval Augmentation
- arxiv url: http://arxiv.org/abs/2507.16002v1
- Date: Mon, 21 Jul 2025 18:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.85056
- Title: Enhancing Hindi NER in Low Context: A Comparative study of Transformer-based models with vs. without Retrieval Augmentation
- Title(参考訳): 低文脈におけるHindi NERのエンハンス:検索拡張のないトランスフォーマーモデルの比較研究
- Authors: Sumit Singh, Rohit Mishra, Uma Shanker Tiwary,
- Abstract要約: 本研究では, ヒンディー語固有の事前訓練エンコーダ (MuRIL, XLM-R) と生成モデル (LM) を用いたヒンディー語NER手法について検討する。
検索拡張(RA)を伴わないMulil, XLM-R, Llama2-7Bの微調整を行った。
その結果,RAは特に低コンテキストデータにおいて,性能を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 3.7550827441501844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One major challenge in natural language processing is named entity recognition (NER), which identifies and categorises named entities in textual input. In order to improve NER, this study investigates a Hindi NER technique that makes use of Hindi-specific pretrained encoders (MuRIL and XLM-R) and Generative Models ( Llama-2-7B-chat-hf (Llama2-7B), Llama-2-70B-chat-hf (Llama2-70B), Llama-3-70B-Instruct (Llama3-70B) and GPT3.5-turbo), and augments the data with retrieved data from external relevant contexts, notably from Wikipedia. We have fine-tuned MuRIL, XLM-R and Llama2-7B with and without RA. However, Llama2-70B, lama3-70B and GPT3.5-turbo are utilised for few-shot NER generation. Our investigation shows that the mentioned language models (LMs) with Retrieval Augmentation (RA) outperform baseline methods that don't incorporate RA in most cases. The macro F1 scores for MuRIL and XLM-R are 0.69 and 0.495, respectively, without RA and increase to 0.70 and 0.71, respectively, in the presence of RA. Fine-tuned Llama2-7B outperforms Llama2-7B by a significant margin. On the other hand the generative models which are not fine-tuned also perform better with augmented data. GPT3.5-turbo adopted RA well; however, Llama2-70B and llama3-70B did not adopt RA with our retrieval context. The findings show that RA significantly improves performance, especially for low-context data. This study adds significant knowledge about how best to use data augmentation methods and pretrained models to enhance NER performance, particularly in languages with limited resources.
- Abstract(参考訳): 自然言語処理における大きな課題の1つは、名前付きエンティティ認識(NER)である。
NERを改善するために,ヒンディー語固有の事前学習エンコーダ (MuRIL, XLM-R) と生成モデル (Llama-2-7B-chat-hf (Llama2-7B), Llama-2-70B-chat-hf (Llama2-70B), Llama-3-70B-Instruct (Llama3-70B), GPT3.5-turbo) を併用したヒンディー語NER技術について検討し,特にウィキペディアの外部関連文脈から取得したデータを拡張した。
RAの有無に関わらず, MuRIL, XLM-R, Llama2-7Bを微調整した。
しかし、Llama2-70B、Lama3-70B、GPT3.5-turboは数発のNER世代に使用されている。
本研究は, RAを組み込まないベースライン法よりも, RAを用いた言語モデル(LM)が優れていることを示す。
MuRILとXLM−RのマクロF1スコアはRAなしでそれぞれ0.69と0.495であり、RAの存在下では0.70と0.71に増加する。
微調整されたLlama2-7Bは、Llama2-7Bよりかなり優れていた。
一方、微調整されていない生成モデルは、拡張データでも性能が向上する。
GPT3.5-turbo は RA をよく採用したが,Llama2-70B と llama3-70B は検索文脈では RA を採用しなかった。
その結果,RAは特に低コンテキストデータにおいて,性能を著しく向上することがわかった。
本研究は,特に限られた資源を持つ言語において,NER性能を向上させるために,データ拡張手法と事前学習モデルの使用方法について,重要な知識を提供する。
関連論文リスト
- Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。
我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。
我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文 参考訳(メタデータ) (2025-05-30T20:12:51Z) - R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [62.742230250513025]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。
我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文 参考訳(メタデータ) (2025-05-26T12:25:37Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - A Study to Evaluate the Impact of LoRA Fine-tuning on the Performance of Non-functional Requirements Classification [7.068996522191008]
Low-Rank Adaptation (LoRA) のNFR分類への微調整アプローチ
実験の結果、LoRAは性能を損なうことなく実行コスト(最大68%の削減)を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-11T00:16:12Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Investigating Training Strategies and Model Robustness of Low-Rank
Adaptation for Language Modeling in Speech Recognition [27.515920408920216]
フリーズドプレトレーニング言語モデル(PLM)を用いたローランク適応(LoRA)は、メモリ制約ハードウェアのための資源効率の高いモデリング手法である。
本研究では,様々なLoRAトレーニング戦略を導入することにより,モデル性能を向上させる方法について検討する。
LoRAに基づく第2パス音声認識モデルの安定性をさらに評価するため,入力摂動に対する検討を行った。
論文 参考訳(メタデータ) (2024-01-19T01:30:16Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。