Fugu-MT 論文翻訳(概要): "Lost-in-the-Later": Framework for Quantifying Contextual Grounding in Large Language Models

論文の概要: "Lost-in-the-Later": Framework for Quantifying Contextual Grounding in Large Language Models

arxiv url: http://arxiv.org/abs/2507.05424v1
Date: Mon, 07 Jul 2025 19:13:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:37.315439
Title: "Lost-in-the-Later": Framework for Quantifying Contextual Grounding in Large Language Models
Title（参考訳）: Lost-in-the-Later":大規模言語モデルにおける文脈グラウンドの定量化フレームワーク
Authors: Yufei Tao, Adam Hiatt, Rahul Seetharaman, Ameeta Agrawal,
Abstract要約: モデルと言語間の文脈的知識を測定する新しい評価フレームワークであるCoPEを紹介する。大規模言語モデルがどのようにコンテキストを統合し、情報を優先順位付けし、PKをオープンな質問応答に組み込むかを分析する。推論モデルと、チェーン・オブ・シント(CoT)によって引き起こされた非推論モデルが、CoTのない非推論モデルよりもコンテキストを使用し、失われた後の効果を軽減できないことがわかった。
参考スコア（独自算出の注目度）: 4.712325494028972
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are capable of leveraging both contextual and parametric knowledge but how they prioritize and integrate these sources remains underexplored. We introduce CoPE, a novel evaluation framework that systematically measures contextual knowledge (CK) and parametric knowledge (PK) across models and languages. Using our MultiWikiAtomic dataset in English, Spanish, and Danish, we analyze how large language models (LLMs) integrate context, prioritize information, and incorporate PK in open-ended question answering. Our analysis uncovers a phenomenon we call lost-in-the-later, where LLMs tend to overlook or deprioritize information that appears later in a given context, revealing a strong positional bias that affects contextual grounding. We further find that reasoning models, as well as non-reasoning models prompted with chain-of-thought (CoT), use context even less than non-reasoning models without CoT and fail to mitigate the lost-in-the-later effect. CoT prompting, in particular, results in lower recall and shorter responses, leading to degraded contextual grounding. Based on these insights, we design prompt-based methods to effectively leverage input context. A case study applying CoPE to summarization demonstrates that CK-informed prompting improves factual grounding and reduces hallucination.
Abstract（参考訳）: 大規模言語モデルは文脈的知識とパラメトリック的知識の両方を活用することができるが、これらのソースをどのように優先順位付けし、統合するかは未解明のままである。我々は,文脈知識(CK)とパラメトリック知識(PK)をモデルと言語で体系的に測定する新しい評価フレームワークであるCoPEを紹介する。英語、スペイン語、デンマーク語のMultiWikiAtomicデータセットを使用して、大規模言語モデル(LLM)がコンテキストをどのように統合し、情報を優先順位付けし、PKをオープンな質問応答に組み込むかを分析する。我々の分析は、LLMが特定の文脈で後で現れる情報の見落としや非優先順位付けをしがちな、ロス・イン・ザ・レイターと呼ばれる現象を明らかにし、文脈的接地に影響を与える強い位置バイアスを明らかにします。さらに、推論モデルと、チェーン・オブ・シント(CoT)によって引き起こされた非推論モデルが、CoTのない非推論モデルよりもコンテキストを使用し、失われた後の効果を軽減できないこともわかりました。 CoTプロンプトは特に、リコールが低く、レスポンスが短くなり、コンテキストグラウンドが劣化する。これらの知見に基づいて、入力コンテキストを効果的に活用するプロンプトベースの手法を設計する。 CoPEを要約に適用したケーススタディでは、CKインフォームド・プロジェクションが現実の接地を改善し、幻覚を減少させることが示された。

関連論文リスト

Context-Informed Grounding Supervision [102.11698329887226]
コンテキストインフォームド・グラウンド(Context-Informed Grounding Supervision, CINGS)は、モデルが応答に先立って関連するコンテキストでトレーニングされる訓練後の監督である。実験により, CINGSで訓練したモデルでは, テキスト領域と視覚領域の両方において, より強い基底が示されることがわかった。
論文参考訳（メタデータ） (2025-06-18T14:13:56Z)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T14:53:49Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
When Context Leads but Parametric Memory Follows in Large Language Models [4.567122178196834]
大規模言語モデル (LLM) は多様な知識源の活用において顕著な進歩を見せている。本研究では,9つのLLMがオープンな質問に対して,局所的な文脈とグローバルなパラメータの知識を割り当てる方法について検討した。
論文参考訳（メタデータ） (2024-09-13T00:03:19Z)
Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding [9.2433070542025]
大規模言語モデル(LLM)は、テキスト生成時に入力コンテキストを不適切に統合する傾向がある。本稿では, 逆無関係なパスを負のサンプルとして, コントラストデコーディングを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-04T20:38:41Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。しかし、この文脈的基盤のメカニズムはいまだに不明である。本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文参考訳（メタデータ） (2023-12-04T17:35:42Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。