論文の概要: Evaluation Framework for Highlight Explanations of Context Utilisation in Language Models
- arxiv url: http://arxiv.org/abs/2510.02629v1
- Date: Fri, 03 Oct 2025 00:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.212059
- Title: Evaluation Framework for Highlight Explanations of Context Utilisation in Language Models
- Title(参考訳): 言語モデルにおける文脈利用のハイライト記述のための評価フレームワーク
- Authors: Jingyi Sun, Pepa Atanasova, Sagnik Ray Choudhury, Sekh Mainul Islam, Isabelle Augenstein,
- Abstract要約: コンテキスト利用(Context utilisation)は、言語モデルが応答を生成するときに提供されるコンテキストから関連する情報を組み込む機能である。
実地ストルース・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・コンテクスト・アトリビューションのための最初のゴールド標準HE評価フレームワークを提案する。
私たちは、すべてのコンテキストシナリオで、MechLightが最高のパフォーマンスを発揮することに気付きました。
- 参考スコア(独自算出の注目度): 36.64390220306208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context utilisation, the ability of Language Models (LMs) to incorporate relevant information from the provided context when generating responses, remains largely opaque to users, who cannot determine whether models draw from parametric memory or provided context, nor identify which specific context pieces inform the response. Highlight explanations (HEs) offer a natural solution as they can point the exact context pieces and tokens that influenced model outputs. However, no existing work evaluates their effectiveness in accurately explaining context utilisation. We address this gap by introducing the first gold standard HE evaluation framework for context attribution, using controlled test cases with known ground-truth context usage, which avoids the limitations of existing indirect proxy evaluations. To demonstrate the framework's broad applicability, we evaluate four HE methods -- three established techniques and MechLight, a mechanistic interpretability approach we adapt for this task -- across four context scenarios, four datasets, and five LMs. Overall, we find that MechLight performs best across all context scenarios. However, all methods struggle with longer contexts and exhibit positional biases, pointing to fundamental challenges in explanation accuracy that require new approaches to deliver reliable context utilisation explanations at scale.
- Abstract(参考訳): コンテキスト利用、応答を生成する際に提供されるコンテキストから関連する情報を組み込む言語モデル(LM)の能力は、モデルがパラメトリックメモリから引き出されたか、提供されたコンテキストから引き出されたか、どの特定のコンテキストが応答に通知されたかを判断できないユーザにとって、ほとんど不透明なままである。
ハイライト説明(HE)は、モデル出力に影響を与える正確なコンテキスト要素とトークンを指し示すことができるので、自然なソリューションを提供する。
しかし、文脈利用を正確に説明する上での有効性を評価できる既存の研究は存在しない。
このギャップに対処するために,既存の間接的プロキシ評価の制限を回避するために,既知の接地構造を用いた制御されたテストケースを用いて,コンテキスト属性に対する最初のゴールド標準HE評価フレームワークを導入する。
フレームワークの広範な適用性を示すために,4つのHEメソッド – 確立された3つのテクニックと,そのタスクに適応するメカニスティックな解釈可能性アプローチであるMechLight – を,コンテキストシナリオ4つ,データセット4つ,LM5つで評価した。
全体として、すべてのコンテキストシナリオでMechLightが最高のパフォーマンスを発揮することが分かります。
しかしながら、全ての手法は、より長い文脈で苦労し、位置バイアスを示し、信頼性の高いコンテキスト利用説明を大規模に提供するために新しいアプローチを必要とする、説明の正確性における根本的な課題を指摘した。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - On Measuring Context Utilization in Document-Level MT Systems [12.02023514105999]
本稿では,文脈利用の尺度を用いて,精度に基づく評価を補完することを提案する。
自動アノテート支援コンテキストは人間のアノテートコンテキストに類似した結論を与えることを示す。
論文 参考訳(メタデータ) (2024-02-02T13:37:07Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。