論文の概要: What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations
- arxiv url: http://arxiv.org/abs/2511.13900v1
- Date: Mon, 17 Nov 2025 20:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.792901
- Title: What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations
- Title(参考訳): LLMにおけるロスト・イン・ザ・ミドル(Lost-in-the-Middle)の作用について : GM抽出法と緩和法の検討
- Authors: Mihir Gupte, Eshan Dixit, Muhammad Tayyab, Arun Adiththan,
- Abstract要約: GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。
2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。
明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
- 参考スコア(独自算出の注目度): 1.2879523047871226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The diminishing ability of large language models (LLMs) to effectively utilize long-range context-the "lost-in-the-middle" phenomenon-poses a significant challenge in retrieval-based LLM applications. To study the impact of this phenomenon in a real-world application setting, we introduce GM-Extract, a novel benchmark dataset meticulously designed to evaluate LLM performance on retrieval of control variables. To accurately diagnose failure modes, we propose a simple yet elegant evaluation system using two distinct metrics: one for spatial retrieval capability (Document Metric) and the other for semantic retrieval capability (Variable Extraction Metric). We conduct a systematic evaluation of 7-8B parameter models on two multi-document tasks (key-value extraction and question-answering), demonstrating a significant change in retrieval performance simply by altering how the data is represented in the context window. While a distinct U-shaped curve was not consistently observed, our analysis reveals a clear pattern of performance across models, which we further correlate with perplexity scores. Furthermore, we perform a literature survey of mitigation methods, which we categorize into two distinct approaches: black-box and white-box methods. We then apply these techniques to our benchmark, finding that their efficacy is highly nuanced. Our evaluation highlights scenarios where these strategies successfully improve performance, as well as surprising cases where they lead to a negative impact, providing a comprehensive understanding of their utility in a practical context.
- Abstract(参考訳): 大規模言語モデル(LLM)の「中途半端(lost-in-the-middle)」現象を効果的に活用する能力の低下は、検索ベースのLLMアプリケーションにおいて大きな課題となっている。
実世界のアプリケーション環境において,この現象が及ぼす影響を研究するために,制御変数の検索におけるLLM性能の評価を念頭に設計した,新しいベンチマークデータセットであるGM-Extractを導入する。
障害モードを正確に診断するために,空間検索能力(文書メトリック)と意味検索能力(可変抽出メトリック)の2つの異なる指標を用いた簡易かつエレガントな評価システムを提案する。
2つのマルチドキュメントタスク(キー値抽出と質問応答)において、7-8Bパラメータモデルの体系的評価を行い、コンテキストウィンドウでデータがどのように表現されるかを変更するだけで、検索性能に大きな変化を示す。
明瞭なU字曲線は一貫して観測されなかったが, 解析により, モデル間の性能の明確なパターンが明らかとなり, パープレキシティスコアと相関することがわかった。
さらに,ブラックボックス法とホワイトボックス法という2つの異なるアプローチに分類した緩和法に関する文献調査を行った。
次に、これらの手法をベンチマークに適用し、その効果が極めてニュアンスが高いことを確かめる。
評価では、これらの戦略がパフォーマンス改善に成功しているシナリオと、それらが負の影響をもたらす驚くべきケースを強調し、実践的な文脈でそれらのユーティリティを包括的に理解する。
関連論文リスト
- UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文 参考訳(メタデータ) (2025-10-15T13:07:00Z) - How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models [24.90505576458548]
我々は,大規模言語モデル(LLM)に基づく,軽量なコンテクストとゼロショットアプローチを含む,最先端のリグレード手法の評価を行った。
我々の第一の目的は、LLMベースのリランカと軽量なリランカの間に性能格差が存在するかどうか、制御と公正な比較によって決定することである。
論文 参考訳(メタデータ) (2025-08-22T19:30:04Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Dissecting Representation Misalignment in Contrastive Learning via Influence Function [15.28417468377201]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
我々はECIFに基づいて,データ評価,誤修正検出,誤予測トレースバックタスクのための一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。