論文の概要: Retrieval Quality at Context Limit
- arxiv url: http://arxiv.org/abs/2511.05850v1
- Date: Sat, 08 Nov 2025 04:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.616497
- Title: Retrieval Quality at Context Limit
- Title(参考訳): 文脈限界における検索品質
- Authors: Max McKinnon,
- Abstract要約: 我々は,Gemini 2.5 Flashが文書の位置に関わらず,高精度で解答できることを示す。
我々の結果は、Gemini 2.5 Flashにおける単純なファクトイドのQ&Aには、"Lost in the Middle"効果は存在しないことを示唆している。
- 参考スコア(独自算出の注目度): 0.8122270502556375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of large language models (LLMs) to recall and retrieve information from long contexts is critical for many real-world applications. Prior work (Liu et al., 2023) reported that LLMs suffer significant drops in retrieval accuracy for facts placed in the middle of large contexts, an effect known as "Lost in the Middle" (LITM). We find the model Gemini 2.5 Flash can answer needle-in-a-haystack questions with great accuracy regardless of document position including when the document is nearly at the input context limit. Our results suggest that the "Lost in the Middle" effect is not present for simple factoid Q\&A in Gemini 2.5 Flash, indicating substantial improvements in long-context retrieval.
- Abstract(参考訳): 大規模な言語モデル(LLM)が長いコンテキストから情報をリコールし、取り出す能力は、多くの現実世界のアプリケーションにとって重要である。
以前の研究 (Liu et al , 2023) では、LLMは大きな文脈の中央に置かれる事実の精度を著しく低下させており、これは"Lost in the Middle" (LITM) と呼ばれる効果である。
Gemini 2.5 Flashはドキュメントの位置に関わらず,ドキュメントが入力コンテキストの限界近くにある場合を含め,非常に正確である。
以上の結果から,Gemini 2.5 Flash のファクトイドQ\&Aに "Lost in the Middle" 効果は存在しないことが示唆され,長文検索の大幅な改善が示唆された。
関連論文リスト
- Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Long$^2$RAG: Evaluating Long-Context & Long-Form Retrieval-Augmented Generation with Key Point Recall [20.048932795143976]
本稿では、Long$2$RAGベンチマークとKey Point Recallメトリックを紹介する。
Long$2$RAGは10のドメインにまたがる280の質問と8の質問カテゴリからなる。
KPRは、LLMが検索した文書から抽出したキーポイントを生成された応答に組み込む程度を評価する。
論文 参考訳(メタデータ) (2024-10-30T13:29:36Z) - Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs [50.40165119718928]
LongPiBenchは、複数の関連する情報を含む位置バイアスを評価するために設計されたベンチマークである。
これらの実験によると、現在のほとんどのモデルは「中間の失われた」問題に対して堅牢であるが、関連する情報片の間隔に関する重大なバイアスが存在する。
論文 参考訳(メタデータ) (2024-10-18T17:41:19Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training [9.128501882000315]
大規模言語モデル(LLM)は、長い文脈で正しい情報を求めるのに苦労している。
本稿では,LLMの長期的コンテキストにおける情報探索と反射能力の向上を,特別に設計されたタスクを通して行うことを提案する。
実験の結果、マルチドックQAやその他のベンチマークでは、シャッフル設定において、最先端モデルよりも13.7%向上した。
論文 参考訳(メタデータ) (2023-11-15T18:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。