論文の概要: Learning from Sufficient Rationales: Analysing the Relationship Between Explanation Faithfulness and Token-level Regularisation Strategies
- arxiv url: http://arxiv.org/abs/2511.16353v1
- Date: Thu, 20 Nov 2025 13:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.649777
- Title: Learning from Sufficient Rationales: Analysing the Relationship Between Explanation Faithfulness and Token-level Regularisation Strategies
- Title(参考訳): 十分な合理化から学ぶ:説明の忠実度とトークンレベルの正規化戦略の関係の分析
- Authors: Jonathan Kamp, Lisa Beinborn, Antske Fokkens,
- Abstract要約: モデル性能に及ぼす理性情報の影響について検討する。
非常に有意義な合理性は、インスタンスを正しく分類するのに役立ちそうにない。
また、モデル入力に合理的情報を組み込むことで、ドメイン間の分類が促進されるが、タスクごとに結果が矛盾していることが判明した。
- 参考スコア(独自算出の注目度): 5.225254533678075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human explanations of natural language, rationales, form a tool to assess whether models learn a label for the right reasons or rely on dataset-specific shortcuts. Sufficiency is a common metric for estimating the informativeness of rationales, but it provides limited insight into the effects of rationale information on model performance. We address this limitation by relating sufficiency to two modelling paradigms: the ability of models to identify which tokens are part of the rationale (through token classification) and the ability of improving model performance by incorporating rationales in the input (through attention regularisation). We find that highly informative rationales are not likely to help classify the instance correctly. Sufficiency conversely captures the classification impact of the non-rationalised context, which interferes with rationale information in the same input. We also find that incorporating rationale information in model inputs can boost cross-domain classification, but results are inconsistent per task and model type. Finally, sufficiency and token classification appear to be unrelated. These results exemplify the complexity of rationales, showing that metrics capable of systematically capturing this type of information merit further investigation.
- Abstract(参考訳): 自然言語の人間による説明、合理性は、モデルが適切な理由からラベルを学ぶか、データセット固有のショートカットに依存するかを評価するためのツールを形成する。
十分性は、有理数に関する情報性を推定するための一般的な指標であるが、それは、有理数情報がモデルの性能に与える影響について限定的な洞察を与える。
この制限を2つのモデリングパラダイムに関連付けることで解決する:どのトークンが論理(トークン分類)の一部であるかを識別するモデルの能力と、入力に有理を組み込むことでモデル性能を向上させる能力(注意規則化)。
非常に有意義な合理性は、インスタンスを正しく分類するのに役立ちそうにない。
十分性は逆に非有理化文脈の分類的影響を捉え、同じ入力における有理化情報に干渉する。
また、モデル入力に合理的情報を組み込むことで、ドメイン間の分類が促進されるが、タスクごとに結果が矛盾していることが判明した。
最後に、十分性やトークンの分類は無関係である。
これらの結果は合理性の複雑さを実証し、この種の情報を体系的に捉えることのできるメトリクスがさらなる調査に役立つことを示す。
関連論文リスト
- Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [51.92313556418432]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。
各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。
我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文 参考訳(メタデータ) (2025-08-06T11:22:23Z) - Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。
モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文 参考訳(メタデータ) (2025-05-30T02:39:37Z) - Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8274323268621635]
Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。
RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-12-02T10:50:50Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - On the Foundations of Shortcut Learning [20.53986437152018]
予測と可用性が形状モデルの特徴的利用とどのように相互作用するかを考察する。
線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。
論文 参考訳(メタデータ) (2023-10-24T22:54:05Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Does Self-Rationalization Improve Robustness to Spurious Correlations? [19.553357015260687]
自己合理化のためのトレーニングモデルが、正しい理由でタスクを解決するための学習に役立つかどうかを問う。
細調整エンコーダデコーダとデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデオーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダのロバスト性の評価を行った。
自己組織化は低リソース環境での相関関係を刺激することでロバスト性を改善することができるが、高リソース環境ではロバスト性を損なう傾向にある。
論文 参考訳(メタデータ) (2022-10-24T19:54:57Z) - Discriminatory Expressions to Produce Interpretable Models in Short
Documents [0.0]
State-of-the-artモデルは、社会的影響のある問題の解決に使用すべきではないブラックボックスである。
本稿では,少ないが有意義な特徴を用いることで,理解度を向上させる機能選択機構を提案する。
論文 参考訳(メタデータ) (2020-11-27T19:00:50Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - Fairness-Aware Learning with Prejudice Free Representations [2.398608007786179]
本稿では,潜在性識別特徴を効果的に識別し,治療できる新しいアルゴリズムを提案する。
このアプローチは、モデルパフォーマンスを改善するために差別のない機能を集めるのに役立つ。
論文 参考訳(メタデータ) (2020-02-26T10:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。