論文の概要: Investigating Training and Generalization in Faithful Self-Explanations of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.07288v1
- Date: Mon, 08 Dec 2025 08:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.783961
- Title: Investigating Training and Generalization in Faithful Self-Explanations of Large Language Models
- Title(参考訳): 大規模言語モデルの忠実自己説明における学習と一般化の検討
- Authors: Tomoki Doi, Masaru Isonuma, Hitomi Yanaka,
- Abstract要約: 学習は,すべての分類課題や説明スタイルにまたがって,自己説明の忠実さを向上させることができることを示す。
3つのスタイルの間に一貫したクロススタイルの一般化が見られ、トレーニングが忠実な自己説明能力の向上に寄与する可能性が示唆された。
- 参考スコア(独自算出の注目度): 25.23274851302074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have the potential to generate explanations for their own predictions in a variety of styles based on user instructions. Recent research has examined whether these self-explanations faithfully reflect the models' actual behavior and has found that they often lack faithfulness. However, the question of how to improve faithfulness remains underexplored. Moreover, because different explanation styles have superficially distinct characteristics, it is unclear whether improvements observed in one style also arise when using other styles. This study analyzes the effects of training for faithful self-explanations and the extent to which these effects generalize, using three classification tasks and three explanation styles. We construct one-word constrained explanations that are likely to be faithful using a feature attribution method, and use these pseudo-faithful self-explanations for continual learning on instruction-tuned models. Our experiments demonstrate that training can improve self-explanation faithfulness across all classification tasks and explanation styles, and that these improvements also show signs of generalization to the multi-word settings and to unseen tasks. Furthermore, we find consistent cross-style generalization among three styles, suggesting that training may contribute to a broader improvement in faithful self-explanation ability.
- Abstract(参考訳): 大規模言語モデルは、ユーザ指示に基づいて様々なスタイルで、独自の予測のための説明を生成する可能性がある。
最近の研究は、これらの自己説明がモデルの実際の振る舞いを忠実に反映しているかどうかを調べ、しばしば忠実さが欠如していることを発見した。
しかし、信仰をどう改善するかという問題は未解決のままである。
また、異なる説明スタイルが表面的に異なる特徴を持つため、他のスタイルを使用する際にも、あるスタイルで観察される改善が生じるかどうかも不明である。
本研究は,3つの分類課題と3つの説明スタイルを用いて,忠実な自己説明のためのトレーニングの効果と,これらの効果が一般化する程度を分析した。
我々は,特徴帰属法を用いて忠実な一語制約付き説明文を構築し,これらの擬似信頼自己説明文を用いて指導訓練モデルの連続学習を行う。
実験により,全ての分類タスクや説明スタイルにおける自己説明の忠実度の向上が図られ,これらの改善は多語設定への一般化の兆しや,見当たらないタスクへの一般化の兆候を示すことが示された。
さらに,3つのスタイルの間に一貫したクロススタイルの一般化が見られ,トレーニングが忠実な自己説明能力の向上に寄与する可能性が示唆された。
関連論文リスト
- Verbosity Tradeoffs and the Impact of Scale on the Faithfulness of LLM Self-Explanations [19.32573526975115]
我々は13家族の75モデルにわたる反事実的忠実度を分析した。
この研究は、相関対実テスト(CCT)の簡易版であるphi-CCTとF-AUROCの2つの新しい指標を動機付けている。
より大きく、より有能なモデルは、私たちが考慮しているすべての指標に一貫して忠実です。
論文 参考訳(メタデータ) (2025-03-17T17:59:39Z) - How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールである
この研究において、我々はこの概念に挑戦する経験的証拠を提示する。
トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2025-03-01T22:25:11Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Learning by Self-Explaining [23.420673675343266]
我々は、自己説明による学習(LSX)と呼ばれる画像分類の文脈において、新しいワークフローを導入する。
LSXは、自己修復型AIと人間誘導型説明機械学習の側面を利用する。
本結果は,自己説明による学習による改善を,いくつかのレベルで示すものである。
論文 参考訳(メタデータ) (2023-09-15T13:41:57Z) - StyLEx: Explaining Style Using Human Lexical Annotations [19.060460823186958]
本稿では,スタイリスティックな特徴の人間による説明から学習し,これらの特徴をモデル説明として予測するモデルであるStyLExを紹介する。
実験の結果,Stylexは文レベルの予測性能を犠牲にすることなく,人文的な語彙的説明が可能であることがわかった。
論文 参考訳(メタデータ) (2022-10-14T02:35:47Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Evaluating Explanations: How much do explanations from the teacher aid
students? [103.05037537415811]
本研究では,説明が生徒の学習モデルを改善する程度を測る学生-教師パラダイムを用いて,説明の価値を定式化する。
説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にします。
論文 参考訳(メタデータ) (2020-12-01T23:40:21Z) - GSum: A General Framework for Guided Neural Abstractive Summarization [102.29593069542976]
本稿では,様々な外部ガイダンスを入力として効果的に活用できる汎用的かつガイド付き要約フレームワーク(GSum)を提案する。
実験により、このモデルが有効であることが示され、ROUGEによれば、4つの一般的な要約データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-10-15T20:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。