Fugu-MT 論文翻訳(概要): U-NIAH: Unified RAG and LLM Evaluation for Long Context Needle-In-A-Haystack

論文の概要: U-NIAH: Unified RAG and LLM Evaluation for Long Context Needle-In-A-Haystack

arxiv url: http://arxiv.org/abs/2503.00353v1
Date: Sat, 01 Mar 2025 05:05:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.349567
Title: U-NIAH: Unified RAG and LLM Evaluation for Long Context Needle-In-A-Haystack
Title（参考訳）: U-NIAH:ロングコンテキストニードル・イン・A・ヘイスタックのための統一RAGとLCM評価
Authors: Yunfan Gao, Yun Xiong, Wenlong Wu, Zijing Huang, Bohan Li, Haofen Wang,
Abstract要約: 本稿では,Large Language Models(LLM)とRetrieval-Augmented Generation(RAG)を体系的に比較する統一フレームワークであるU-NIAHを紹介する。本フレームワークでは,複数のニードル,長いニードル,ニードルの設定を,異なる検索設定とともに組み込んでいる。以上の結果から,RAGはロスト・イン・ザ・ミドル効果を緩和し,ロバスト性を向上させることにより,より小さなLCMを著しく向上させることが明らかとなった。
参考スコア（独自算出の注目度）: 9.760456105567078
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Large Language Models (LLMs) have expanded their context windows to unprecedented lengths, sparking debates about the necessity of Retrieval-Augmented Generation (RAG). To address the fragmented evaluation paradigms and limited cases in existing Needle-in-a-Haystack (NIAH), this paper introduces U-NIAH, a unified framework that systematically compares LLMs and RAG methods in controlled long context settings. Our framework extends beyond traditional NIAH by incorporating multi-needle, long-needle, and needle-in-needle configurations, along with different retrieval settings, while leveraging the synthetic Starlight Academy dataset-a fictional magical universe-to eliminate biases from pre-trained knowledge. Through extensive experiments, we investigate three research questions: (1) performance trade-offs between LLMs and RAG, (2) error patterns in RAG, and (3) RAG's limitations in complex settings. Our findings show that RAG significantly enhances smaller LLMs by mitigating the "lost-in-the-middle" effect and improving robustness, achieving an 82.58% win-rate over LLMs. However, we observe that retrieval noise and reverse chunk ordering degrade performance, while surprisingly, advanced reasoning LLMs exhibit reduced RAG compatibility due to sensitivity to semantic distractors. We identify typical error patterns including omission due to noise, hallucination under high noise critical condition, and self-doubt behaviors. Our work not only highlights the complementary roles of RAG and LLMs, but also provides actionable insights for optimizing deployments. Code: https://github.com/Tongji-KGLLM/U-NIAH.
Abstract（参考訳）: 近年のLarge Language Models (LLMs) の進歩は、コンテキストウィンドウを前例のない長さにまで拡張し、Retrieval-Augmented Generation (RAG) の必要性に関する議論を巻き起こした。本稿では,既存のニードル・イン・ア・ヘイスタック(NIAH)における断片化評価パラダイムと限定事例に対処するため,LLMとRAGの手法を制御された長期環境下で体系的に比較する統一フレームワークであるU-NIAHを紹介する。我々のフレームワークは、学習前の知識からバイアスを取り除くために、Starlight Academyのデータセット(架空の魔法の宇宙)を活用しながら、複数のネイル、長ネイル、ニードルの構成と異なる検索設定を組み込むことによって、従来のNIAHを超えて拡張します。本研究では,LLMとRAG間の性能トレードオフ,RAGにおけるエラーパターン,複雑な設定におけるRAGの制限という3つの研究課題について検討する。以上の結果から,RAGはロスト・イン・ザ・ミドル効果を緩和し,ロバスト性を高め,LLMよりも82.58%の勝利率を達成した。しかし, 検索ノイズや逆チャンク順序が劣化するのに対して, 意外なことに, LLMは意味的障害に対する感受性によりRAGとの整合性が低下している。ノイズによる消音,高騒音臨界条件下での幻覚,自己疑似行動などの典型的な誤りパターンを同定する。我々の研究は、RAGとLLMの補完的な役割を強調しているだけでなく、デプロイを最適化するための実用的な洞察も提供しています。コード:https://github.com/Tongji-KGLLM/U-NIAH

関連論文リスト

Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
The Other Side of the Coin: Exploring Fairness in Retrieval-Augmented Generation [73.16564415490113]
Retrieval-Augmented Generation (RAG)は、外部の知識ソースから関連文書を取得することにより、Large Language Models (LLM)を強化する。本稿では,小規模LLMにおいてRAGが導入した公平性問題を軽減するために,FairFTとFairFilterの2つのアプローチを提案する。
論文参考訳（メタデータ） (2025-04-11T10:17:10Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文を対象とした2,326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
Eliciting In-context Retrieval and Reasoning for Long-context Large Language Models [27.217391392240113]
長文言語モデル(LCLM)は知識ベース全体を処理し、直接検索と推論を行うことができる。 LOFTのような既存のベンチマークは、過度に単純化されたコンテキストを提供することでLCLMのパフォーマンスを過大評価することが多い。 ICR2はLCLMをより現実的なシナリオで評価するベンチマークである。次に, LCLMの性能向上のための3つの手法を提案する。(1) 検索-then-generate fine-tuning, (2) 注意頭を用いてデコード中の長いコンテキストをフィルタリング・復調する検索-attention-probing, (3) 生成ヘッドと併用した共同検索ヘッドトレーニング。
論文参考訳（メタデータ） (2025-01-14T16:38:33Z)
RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。 Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-12-17T13:05:36Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。 PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文参考訳（メタデータ） (2024-07-11T06:50:19Z)
Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents [25.825941077332182]
本稿では,Dueling Bandits (DB) 問題下での文脈内意思決定者としてLarge Language Models (LLMs) を初めて検討する。 GPT-3.5 Turbo, GPT-4, GPT-4 Turbo, Llama 3.1, o1-Previewの9つのDBアルゴリズムとの比較を行った。我々の最強のLCMであるGPT-4 Turboは、驚くほど弱い後悔を実現するため、ゼロショットの相対的意思決定能力を持っていることを示す。
論文参考訳（メタデータ） (2024-07-02T02:18:14Z)
Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (2023-09-04T08:28:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。