論文の概要: Learning from Sufficient Rationales: Analysing the Relationship Between Explanation Faithfulness and Token-level Regularisation Strategies
- arxiv url: http://arxiv.org/abs/2511.16353v1
- Date: Thu, 20 Nov 2025 13:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.649777
- Title: Learning from Sufficient Rationales: Analysing the Relationship Between Explanation Faithfulness and Token-level Regularisation Strategies
- Title(参考訳): 十分な合理化から学ぶ:説明の忠実度とトークンレベルの正規化戦略の関係の分析
- Authors: Jonathan Kamp, Lisa Beinborn, Antske Fokkens,
- Abstract要約: モデル性能に及ぼす理性情報の影響について検討する。
非常に有意義な合理性は、インスタンスを正しく分類するのに役立ちそうにない。
また、モデル入力に合理的情報を組み込むことで、ドメイン間の分類が促進されるが、タスクごとに結果が矛盾していることが判明した。
- 参考スコア(独自算出の注目度): 5.225254533678075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human explanations of natural language, rationales, form a tool to assess whether models learn a label for the right reasons or rely on dataset-specific shortcuts. Sufficiency is a common metric for estimating the informativeness of rationales, but it provides limited insight into the effects of rationale information on model performance. We address this limitation by relating sufficiency to two modelling paradigms: the ability of models to identify which tokens are part of the rationale (through token classification) and the ability of improving model performance by incorporating rationales in the input (through attention regularisation). We find that highly informative rationales are not likely to help classify the instance correctly. Sufficiency conversely captures the classification impact of the non-rationalised context, which interferes with rationale information in the same input. We also find that incorporating rationale information in model inputs can boost cross-domain classification, but results are inconsistent per task and model type. Finally, sufficiency and token classification appear to be unrelated. These results exemplify the complexity of rationales, showing that metrics capable of systematically capturing this type of information merit further investigation.
- Abstract(参考訳): 自然言語の人間による説明、合理性は、モデルが適切な理由からラベルを学ぶか、データセット固有のショートカットに依存するかを評価するためのツールを形成する。
十分性は、有理数に関する情報性を推定するための一般的な指標であるが、それは、有理数情報がモデルの性能に与える影響について限定的な洞察を与える。
この制限を2つのモデリングパラダイムに関連付けることで解決する:どのトークンが論理(トークン分類)の一部であるかを識別するモデルの能力と、入力に有理を組み込むことでモデル性能を向上させる能力(注意規則化)。
非常に有意義な合理性は、インスタンスを正しく分類するのに役立ちそうにない。
十分性は逆に非有理化文脈の分類的影響を捉え、同じ入力における有理化情報に干渉する。
また、モデル入力に合理的情報を組み込むことで、ドメイン間の分類が促進されるが、タスクごとに結果が矛盾していることが判明した。
最後に、十分性やトークンの分類は無関係である。
これらの結果は合理性の複雑さを実証し、この種の情報を体系的に捉えることのできるメトリクスがさらなる調査に役立つことを示す。
関連論文リスト
- Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [51.92313556418432]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。
各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。
我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文 参考訳(メタデータ) (2025-08-06T11:22:23Z) - Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8274323268621635]
Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。
RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-12-02T10:50:50Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - On the Foundations of Shortcut Learning [20.53986437152018]
予測と可用性が形状モデルの特徴的利用とどのように相互作用するかを考察する。
線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。
論文 参考訳(メタデータ) (2023-10-24T22:54:05Z) - Does Self-Rationalization Improve Robustness to Spurious Correlations? [19.553357015260687]
自己合理化のためのトレーニングモデルが、正しい理由でタスクを解決するための学習に役立つかどうかを問う。
細調整エンコーダデコーダとデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデオーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダのロバスト性の評価を行った。
自己組織化は低リソース環境での相関関係を刺激することでロバスト性を改善することができるが、高リソース環境ではロバスト性を損なう傾向にある。
論文 参考訳(メタデータ) (2022-10-24T19:54:57Z) - Discriminatory Expressions to Produce Interpretable Models in Short
Documents [0.0]
State-of-the-artモデルは、社会的影響のある問題の解決に使用すべきではないブラックボックスである。
本稿では,少ないが有意義な特徴を用いることで,理解度を向上させる機能選択機構を提案する。
論文 参考訳(メタデータ) (2020-11-27T19:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。