論文の概要: The Quest for the Right Mediator: Surveying Mechanistic Interpretability Through the Lens of Causal Mediation Analysis
- arxiv url: http://arxiv.org/abs/2408.01416v2
- Date: Wed, 10 Sep 2025 13:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 17:24:19.779843
- Title: The Quest for the Right Mediator: Surveying Mechanistic Interpretability Through the Lens of Causal Mediation Analysis
- Title(参考訳): 正しいメディエーターの探求 : 因果的メディエーション分析のレンズによる機械的解釈可能性の調査
- Authors: Aaron Mueller, Jannik Brinkmann, Millicent Li, Samuel Marks, Koyena Pal, Nikhil Prakash, Can Rager, Aruna Sankaranarayanan, Arnab Sen Sharma, Jiuding Sun, Eric Todd, David Bau, Yonatan Belinkov,
- Abstract要約: 本稿では,因果媒介分析に基づく解釈可能性研究の視点を提案する。
本稿では, 原因単位(メディエーター)の種類に応じて分類された解釈可能性の歴史と現状について述べる。
我々は,各メディエータの長所と短所について論じ,特定の種類のメディエータや検索手法が最適であるかどうかについての洞察を提供する。
- 参考スコア(独自算出の注目度): 51.046457649151336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability provides a toolset for understanding how and why language models behave in certain ways. However, there is little unity in the field: most studies employ ad-hoc evaluations and do not share theoretical foundations, making it difficult to measure progress and compare the pros and cons of different techniques. Furthermore, while mechanistic understanding is frequently discussed, the basic causal units underlying these mechanisms are often not explicitly defined. In this article, we propose a perspective on interpretability research grounded in causal mediation analysis. Specifically, we describe the history and current state of interpretability taxonomized according to the types of causal units (mediators) employed, as well as methods used to search over mediators. We discuss the pros and cons of each mediator, providing insights as to when particular kinds of mediators and search methods are most appropriate. We argue that this framing yields a more cohesive narrative of the field and helps researchers select appropriate methods based on their research objective. Our analysis yields actionable recommendations for future work, including the discovery of new mediators and the development of standardized evaluations tailored to these goals.
- Abstract(参考訳): 解釈可能性(Interpretability)は、言語モデルが特定の方法でどのように振る舞うかを理解するためのツールセットを提供する。
しかし、この分野には統一性はほとんどなく、ほとんどの研究はアドホックな評価を採用し、理論的な基礎を共有していないため、進歩を測り、異なる技術の長所と短所を比較することは困難である。
さらに、機械的理解は頻繁に議論されるが、これらのメカニズムの基礎となる基本的な因果単位は明確に定義されないことが多い。
本稿では,因果媒介分析に基づく解釈可能性研究の展望を提案する。
具体的には、使用した因果単位(メディエーター)の種類に応じて分類された解釈可能性の歴史と現状、および仲介者の検索方法について述べる。
我々は,各メディエータの長所と短所について論じ,特定の種類のメディエータや検索手法が最適であるかどうかについての洞察を提供する。
このフレーミングは、この分野のより密集的な物語を生み出し、研究者が研究目的に基づいて適切な方法を選択するのに役立つと論じる。
我々の分析は、新たなメディエーターの発見や、これらの目標に合わせた標準化された評価の開発を含む、将来の作業に対する実用的な勧告をもたらす。
関連論文リスト
- Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - Leveraging Ontologies to Document Bias in Data [1.0635248457021496]
Doc-BiasOは、textitfair-MLの文献とその尺度で定義されたバイアスの統合語彙の作成を目的としたリソースである。
私たちの主な目的は、AIのあらゆる領域に急速に拡大するにつれて、バイアス研究に関する既存の用語を明確にすることへの貢献です。
論文 参考訳(メタデータ) (2024-06-29T18:41:07Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Towards Non-Adversarial Algorithmic Recourse [20.819764720587646]
反実的な説明とは対照的に、敵対的な例は、それらが根底的な真実よりも誤分類につながるという独特の特徴を持っていると論じられている。
本稿では,非対人的アルゴリズムの議論を紹介するとともに,高い状況下では,対人的特徴を示さない対実的説明を得ることが不可欠である理由を概説する。
論文 参考訳(メタデータ) (2024-03-15T14:18:21Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Investigating the Role of Centering Theory in the Context of Neural
Coreference Resolution Systems [71.57556446474486]
中心化理論と現代のコア参照分解システムとの関係について検討する。
高品質なニューラルコア参照リゾルバは、中心となるアイデアを明示的にモデル化することの恩恵を受けない可能性がある。
また, 再発をモデルとしたCTのバージョンを定式化し, バニラCTよりも良質なコア参照情報を取得することを示した。
論文 参考訳(メタデータ) (2022-10-26T12:55:26Z) - Descriptive vs. inferential community detection in networks: pitfalls,
myths, and half-truths [0.0]
推論手法は、より明確な科学的問題と整合し、より堅牢な結果をもたらすのが一般的であり、多くの場合好まれるべきである、と我々は主張する。
我々は,コミュニティ検出が実際に行われている場合によく信じられる神話や半真実を,そのような手法の使用と結果の解釈の両方を改善するために,取り除こうと試みている。
論文 参考訳(メタデータ) (2021-11-30T23:57:51Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z) - Prediction or Comparison: Toward Interpretable Qualitative Reasoning [16.02199526395448]
現在のアプローチでは、セマンティクスを使用して自然言語入力を論理式に変換するか、あるいは1ステップで解決する"ブラックボックス"モデルを使用する。
本研究では,定性的推論タスクを,予測と比較という2つのタイプに分類する。
特に、2つの推論プロセスをシミュレートするために、エンドツーエンドでトレーニングされたニューラルネットワークモジュールを採用しています。
論文 参考訳(メタデータ) (2021-06-04T10:27:55Z) - Individual Explanations in Machine Learning Models: A Survey for
Practitioners [69.02688684221265]
社会的関連性の高い領域の決定に影響を与える洗練された統計モデルの使用が増加しています。
多くの政府、機関、企業は、アウトプットが人間の解釈可能な方法で説明しにくいため、採用に消極的です。
近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。
論文 参考訳(メタデータ) (2021-04-09T01:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。