Fugu-MT 論文翻訳(概要): Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors

論文の概要: Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors

arxiv url: http://arxiv.org/abs/2505.11770v1
Date: Sat, 17 May 2025 00:31:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.83695
Title: Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors
Title（参考訳）: 言語モデル外分布行動のロバスト予測における内部因果メカニズム
Authors: Jing Huang, Junyi Tao, Thomas Icard, Diyi Yang, Christopher Potts,
Abstract要約: 正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
参考スコア（独自算出の注目度）: 61.92704516732144
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interpretability research now offers a variety of techniques for identifying abstract internal mechanisms in neural networks. Can such techniques be used to predict how models will behave on out-of-distribution examples? In this work, we provide a positive answer to this question. Through a diverse set of language modeling tasks--including symbol manipulation, knowledge retrieval, and instruction following--we show that the most robust features for correctness prediction are those that play a distinctive causal role in the model's behavior. Specifically, we propose two methods that leverage causal mechanisms to predict the correctness of model outputs: counterfactual simulation (checking whether key causal variables are realized) and value probing (using the values of those variables to make predictions). Both achieve high AUC-ROC in distribution and outperform methods that rely on causal-agnostic features in out-of-distribution settings, where predicting model behaviors is more crucial. Our work thus highlights a novel and significant application for internal causal analysis of language models.
Abstract（参考訳）: 解釈可能性の研究は、ニューラルネットワークの抽象的な内部メカニズムを識別する様々な技術を提供している。このようなテクニックは、アウト・オブ・ディストリビューションの例でモデルがどのように振る舞うかを予測するのに使用できますか? 本稿では、この問題に対する肯定的な回答を提供する。記号操作、知識検索、指示追従を含む多種多様な言語モデリングタスクを通して、正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。具体的には,モデル出力の正しさを予測するために因果的メカニズムを利用する2つの手法を提案する。どちらも分布において高いAUC-ROCを実現し、アウト・オブ・ディストリビューション・セッティングにおいて因果関係に依存しない特徴に依存し、モデルの振る舞いを予測することがより重要である。そこで本研究では,言語モデルの内部因果解析への新規かつ重要な応用について紹介する。

関連論文リスト

Can Interpretation Predict Behavior on Unseen Data? [11.280404893713213]
解釈可能性の研究は、モデルが特定のメカニズムに対するターゲットの介入にどのように反応するかを予測することを目的としている。本稿では,分布外モデル行動を予測するツールとして,解釈可能性の約束と課題について考察する。
論文参考訳（メタデータ） (2025-07-08T23:07:33Z)
Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。これらの課題に対処するための影響関数フレームワークを開発する。
論文参考訳（メタデータ） (2024-10-17T17:59:02Z)
A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文参考訳（メタデータ） (2023-05-24T11:43:47Z)
Causal Analysis for Robust Interpretability of Neural Networks [0.2519906683279152]
我々は、事前学習されたニューラルネットワークの因果効果を捉えるための頑健な介入に基づく手法を開発した。分類タスクで訓練された視覚モデルに本手法を適用した。
論文参考訳（メタデータ） (2023-05-15T18:37:24Z)
Rationalizing Predictions by Adversarial Information Calibration [65.19407304154177]
我々は2つのモデルを共同で訓練する: 1つは、正確だがブラックボックスな方法でタスクを解く典型的なニューラルモデルであり、もう1つは、予測の理論的根拠を付加するセレクタ・予測モデルである。我々は,2つのモデルから抽出した情報を,それらの違いが欠落した特徴や過度に選択された特徴の指標であるように校正するために,敵対的手法を用いる。
論文参考訳（メタデータ） (2023-01-15T03:13:09Z)
On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文参考訳（メタデータ） (2022-06-09T17:12:32Z)
Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文参考訳（メタデータ） (2022-04-17T15:55:18Z)
On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文参考訳（メタデータ） (2021-06-08T18:31:02Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)
Learning from the Best: Rationalizing Prediction by Adversarial Information Calibration [39.685626118667074]
2つのモデルを共同でトレーニングする。1つは手前のタスクを正確だがブラックボックスな方法で解く典型的なニューラルモデルであり、もう1つはセレクタ-予測モデルであり、予測の根拠も生み出す。両モデルから抽出した情報の校正には,逆数に基づく手法を用いる。自然言語タスクには, 言語モデルに基づく正規化子を用いて, 流線型論理の抽出を促進することを提案する。
論文参考訳（メタデータ） (2020-12-16T11:54:15Z)
A comprehensive study on the prediction reliability of graph neural networks for virtual screening [0.0]
本稿では,モデルアーキテクチャ,正規化手法,損失関数が分類結果の予測性能および信頼性に与える影響について検討する。その結果,高い成功率を達成するためには,正則化と推論手法の正しい選択が重要であることが明らかとなった。
論文参考訳（メタデータ） (2020-03-17T10:13:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。