論文の概要: Context-Length Robustness in Question Answering Models: A Comparative Empirical Study
- arxiv url: http://arxiv.org/abs/2603.15723v1
- Date: Mon, 16 Mar 2026 17:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.911406
- Title: Context-Length Robustness in Question Answering Models: A Comparative Empirical Study
- Title(参考訳): 質問応答モデルにおける文脈長ロバスト性:比較実証的研究
- Authors: Trishita Dhara, Siddhesh Sheth,
- Abstract要約: 本稿では,SQuADとHotpotQAの2つのベンチマークを用いて,大規模言語モデルにおける文脈長頑健性の実証的研究を行った。
モデル精度を全文脈長の関数として評価し,応答を含む信号を保持しながら,無関係な文脈の量を体系的に増加させることで評価する。
その結果、コンテキスト長が増加するにつれて性能が一貫した低下を示し、マルチホップ推論タスクではシングルスパン抽出タスクよりもはるかに大きな低下が観測された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed in settings where relevant information is embedded within long and noisy contexts. Despite this, robustness to growing context length remains poorly understood across different question answering tasks. In this work, we present a controlled empirical study of context-length robustness in large language models using two widely used benchmarks: SQuAD and HotpotQA. We evaluate model accuracy as a function of total context length by systematically increasing the amount of irrelevant context while preserving the answer-bearing signal. This allows us to isolate the effect of context length from changes in task difficulty. Our results show a consistent degradation in performance as context length increases, with substantially larger drops observed on multi-hop reasoning tasks compared to single-span extraction tasks. In particular, HotpotQA exhibits nearly twice the accuracy degradation of SQuAD under equivalent context expansions. These findings highlight task-dependent differences in robustness and suggest that multi-hop reasoning is especially vulnerable to context dilution. We argue that context-length robustness should be evaluated explicitly when assessing model reliability, especially for applications involving long documents or retrieval-augmented generation.
- Abstract(参考訳): 大きな言語モデルは、関連する情報が長く騒々しいコンテキストに埋め込まれた設定にますますデプロイされる。
それにもかかわらず、コンテキスト長の増加に対する堅牢性は、異なる質問応答タスク間では理解されていない。
本研究では、SQuADとHotpotQAという2つの広く使われているベンチマークを用いて、大規模言語モデルにおける文脈長頑健性に関する制御された実証的研究を示す。
モデル精度を全文脈長の関数として評価し,応答を含む信号を保持しながら,無関係な文脈の量を体系的に増加させることで評価する。
これにより、タスクの難易度の変化からコンテキスト長の影響を分離できる。
その結果、コンテキスト長が増加するにつれて性能が一貫した低下を示し、マルチホップ推論タスクではシングルスパン抽出タスクよりもはるかに大きな低下が観測された。
特にHotpotQAは、等価な文脈展開下でのSQuADの精度の約2倍の劣化を示す。
これらの結果から,マルチホップ推論が特にコンテキスト希釈に弱いことが示唆された。
我々は、特に長期文書や検索拡張世代を含むアプリケーションにおいて、モデル信頼性を評価する際に、文脈長の頑健さを明示的に評価する必要があると論じている。
関連論文リスト
- EntropyLong: Effective Long-Context Training via Predictive Uncertainty [32.39649991665767]
長距離依存関係をキャプチャするための長期コンテキスト言語モデルのトレーニングには、特別なデータ構築が必要である。
本研究では,予測不確実性を利用して依存性の品質を検証する新しいデータ構築手法であるEntropyを提案する。
提案手法は,文書中の高エントロピー位置を特定し,大規模コーパスから意味論的に関連づけられたコンテキストを抽出し,予測エントロピーを減少させるかどうかを判断して有用性を検証する。
論文 参考訳(メタデータ) (2025-09-26T02:38:08Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - GATEAU: Selecting Influential Samples for Long Context Alignment [59.579128690086385]
GATEAUは、長距離依存関係に富む影響力のあるサンプルを同定する。
選択されたサンプルに基づいて訓練されたモデルは、より良い指示追従と長文理解能力を示す。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP [32.19010113355365]
異なるタスクをコンテキスト長で膨らませることは、生産的ではないと我々は主張する。
我々は、長い文脈でそれらがより困難になる特性に基づいて、長い文脈の分類を解き放つことを提案する。
必要な情報が非常に長く、入力内で非常に拡散している、最も困難で興味深い設定は、非常に過度に探索されている、と結論付けている。
論文 参考訳(メタデータ) (2024-06-29T11:09:47Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。