論文の概要: Optimal ablation for interpretability
- arxiv url: http://arxiv.org/abs/2409.09951v1
- Date: Mon, 16 Sep 2024 02:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:40:52.902422
- Title: Optimal ablation for interpretability
- Title(参考訳): 解釈可能性のための最適アブレーション
- Authors: Maximilian Li, Lucas Janson,
- Abstract要約: 解釈可能性の研究は、しばしば機械学習モデルを通して情報の流れをトレースする。
以前の作業では、特定のタスクにおけるモデルコンポーネントの重要性を定量化するために、そのコンポーネントに対するアブレーションの実行の影響を測定したり、コンポーネントを無効にしたモデル推論をシミュレートする。
そこで本研究では,OAをベースとしたコンポーネントの重要性が,他のアブレーション法よりも理論的,経験的優位性を持っていることを示す。
- 参考スコア(独自算出の注目度): 5.108909395876561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability studies often involve tracing the flow of information through machine learning models to identify specific model components that perform relevant computations for tasks of interest. Prior work quantifies the importance of a model component on a particular task by measuring the impact of performing ablation on that component, or simulating model inference with the component disabled. We propose a new method, optimal ablation (OA), and show that OA-based component importance has theoretical and empirical advantages over measuring importance via other ablation methods. We also show that OA-based component importance can benefit several downstream interpretability tasks, including circuit discovery, localization of factual recall, and latent prediction.
- Abstract(参考訳): 解釈可能性の研究は、しばしば機械学習モデルを通して情報の流れをトレースして、興味のあるタスクのために関連する計算を実行する特定のモデルコンポーネントを特定する。
以前の作業では、特定のタスクにおけるモデルコンポーネントの重要性を定量化するために、そのコンポーネントに対するアブレーションの実行の影響を測定したり、コンポーネントを無効にしたモデル推論をシミュレートする。
そこで本研究では,OAをベースとしたコンポーネントの重要性が,他のアブレーション法よりも理論的,経験的優位性を持っていることを示す。
また、OAに基づくコンポーネントの重要性は、回路発見、事実リコールの局所化、潜時予測など、下流の解釈可能性タスクに有効であることを示す。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Sparse Relational Reasoning with Object-Centric Representations [78.83747601814669]
対象中心表現の操作において,リレーショナルニューラルアーキテクチャによって学習されたソフトルールの構成可能性について検討する。
特に特徴量の増加は,いくつかのモデルの性能を向上し,より単純な関係をもたらすことが判明した。
論文 参考訳(メタデータ) (2022-07-15T14:57:33Z) - Ultra-marginal Feature Importance: Learning from Data with Causal Guarantees [1.2289361708127877]
データ間の関係を定量化するためにMCI(Marginal contribute feature importance)が開発された。
本稿では,AIフェアネス文学からの依存除去手法を基盤として,ウルトラマージナル特徴重要度(UMFI)を導入する。
UMFIがMCIよりも優れている実データやシミュレーションデータについて,特に相互関係や非関連性の存在下で述べる。
論文 参考訳(メタデータ) (2022-04-21T07:54:58Z) - A Probit Tensor Factorization Model For Relational Learning [31.613211987639296]
本稿では,従来のテンソル因数分解モデルから計算効率を継承する,プロビットリンク付きバイナリテンソル因数分解モデルを提案する。
提案手法は,予測精度と解釈可能性の両面で優位性を示す。
論文 参考訳(メタデータ) (2021-11-06T19:23:07Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Understanding Global Feature Contributions With Additive Importance
Measures [14.50261153230204]
我々は,各特徴に関連付けられた予測力を通じて,特徴の重要性を定義する視点について検討する。
予測力(モデルベースと普遍性)の2つの概念を導入し、付加的重要度尺度の枠組みを用いてこのアプローチを定式化する。
次に,機能的相互作用を考慮に入れながら予測力を定量化するモデルに依存しないSAGEを提案する。
論文 参考訳(メタデータ) (2020-04-01T19:17:58Z) - Feature Importance Estimation with Self-Attention Networks [0.0]
ブラックボックスニューラルネットワークモデルは、産業や科学で広く使われているが、理解と解釈が難しい。
近年,ニューラルネットワークモデルの内部動作に関する洞察を提供するアテンションメカニズムが導入されている。
本稿では、命題(タブラル)データから得られたモデルを説明する手段として、注目に基づくニューラルネットワーク機構を用いて特徴重要度を推定する。
論文 参考訳(メタデータ) (2020-02-11T15:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。