論文の概要: Can Interpretation Predict Behavior on Unseen Data?
- arxiv url: http://arxiv.org/abs/2507.06445v1
- Date: Tue, 08 Jul 2025 23:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.415468
- Title: Can Interpretation Predict Behavior on Unseen Data?
- Title(参考訳): 未知データの解釈予測は可能か?
- Authors: Victoria R. Li, Jenny Kaufmann, Martin Wattenberg, David Alvarez-Melis, Naomi Saphra,
- Abstract要約: 解釈可能性の研究は、モデルが特定のメカニズムに対するターゲットの介入にどのように反応するかを予測することを目的としている。
本稿では,分布外モデル行動を予測するツールとして,解釈可能性の約束と課題について考察する。
- 参考スコア(独自算出の注目度): 11.280404893713213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability research often aims to predict how a model will respond to targeted interventions on specific mechanisms. However, it rarely predicts how a model will respond to unseen input data. This paper explores the promises and challenges of interpretability as a tool for predicting out-of-distribution (OOD) model behavior. Specifically, we investigate the correspondence between attention patterns and OOD generalization in hundreds of Transformer models independently trained on a synthetic classification task. These models exhibit several distinct systematic generalization rules OOD, forming a diverse population for correlational analysis. In this setting, we find that simple observational tools from interpretability can predict OOD performance. In particular, when in-distribution attention exhibits hierarchical patterns, the model is likely to generalize hierarchically on OOD data -- even when the rule's implementation does not rely on these hierarchical patterns, according to ablation tests. Our findings offer a proof-of-concept to motivate further interpretability work on predicting unseen model behavior.
- Abstract(参考訳): 解釈可能性の研究は、モデルが特定のメカニズムに対するターゲットの介入にどのように反応するかを予測することを目的としている。
しかし、モデルが目に見えない入力データにどのように反応するかを予測することはめったにない。
本稿では,アウト・オブ・ディストリビューション(OOD)モデルの振る舞いを予測するツールとして,解釈可能性の約束と課題について考察する。
具体的には、合成分類タスクで個別に訓練された数百のトランスフォーマーモデルにおいて、注意パターンとOOD一般化の対応について検討する。
これらのモデルはいくつかの異なる体系的な一般化規則OODを示し、相関解析のために多様な集団を形成している。
この設定では、解釈可能性からの単純な観察ツールでOOD性能を予測できることが分かる。
特に、分布内注意が階層的パターンを示す場合、そのモデルはOODデータに階層的に一般化する可能性が高い。
本研究は, 未知のモデル行動を予測するための, さらなる解釈可能性の研究を動機づける概念実証を提供する。
関連論文リスト
- Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。
予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。
2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Guide the Learner: Controlling Product of Experts Debiasing Method Based
on Token Attribution Similarities [17.082695183953486]
一般的な回避策は、二次バイアスモデルに基づいてトレーニング例を再重み付けすることで、堅牢なモデルをトレーニングすることである。
ここでは、バイアスドモデルが機能をショートカットする、という前提がある。
本稿では,主要モデルと偏りのあるモデル属性スコアの類似性を,プロダクト・オブ・エキスパートズ・ロス関数に組み込んだ微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-02-06T15:21:41Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Understanding Out-of-distribution: A Perspective of Data Dynamics [5.811774625668462]
本稿では、OODと分布内サンプルの基本的な相違を理解するために、トレーニングモデルにおけるデータダイナミクスをどのように利用できるかを検討する。
その結果,OOD,in-distributionの両ケースにおいて,モデルが不正確に予測するデータサンプルの構文的特性が直接矛盾していることが判明した。
論文 参考訳(メタデータ) (2021-11-29T17:34:38Z) - Evaluation metrics for behaviour modeling [2.616915680939834]
模倣学習を用いて学習した行動生成モデルの評価と比較のための指標を提案し,検討する。
これらの基準は、行動におけるより長い時間的関係を考察し、振る舞いが本質的に予測不可能な性質を持つ場合と関係し、モデルによって生成された行動の全体分布におけるバイアスを強調する。
提案手法は, 生物学者の行動に関する直観と一致し, モデルの評価, バイアスの理解, 新たな研究方向性の提案を可能にした。
論文 参考訳(メタデータ) (2020-07-23T23:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。