論文の概要: Actionable Interpretability Must Be Defined in Terms of Symmetries
- arxiv url: http://arxiv.org/abs/2601.12913v1
- Date: Mon, 19 Jan 2026 10:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.852428
- Title: Actionable Interpretability Must Be Defined in Terms of Symmetries
- Title(参考訳): 対称性の観点で解釈可能性を定義する必要がある
- Authors: Pietro Barbiero, Mateo Espinosa Zarlenga, Francesco Giannini, Alberto Termine, Filippo Bonchi, Mateja Jamnik, Giuseppe Marra,
- Abstract要約: 本稿では、人工知能における解釈可能性研究は、既存の解釈可能性の定義が*動作可能ではないため、基本的に不適切である、と論じる。
我々は、解釈可能性の定義が作用可能であるためには、*対称性*の観点で与えられる必要があると仮定する。
- 参考スコア(独自算出の注目度): 37.964025348175504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper argues that interpretability research in Artificial Intelligence is fundamentally ill-posed as existing definitions of interpretability are not *actionable*: they fail to provide formal principles from which concrete modelling and inferential rules can be derived. We posit that for a definition of interpretability to be actionable, it must be given in terms of *symmetries*. We hypothesise that four symmetries suffice to (i) motivate core interpretability properties, (ii) characterize the class of interpretable models, and (iii) derive a unified formulation of interpretable inference (e.g., alignment, interventions, and counterfactuals) as a form of Bayesian inversion.
- Abstract(参考訳): 本稿では, 人工知能における解釈可能性研究は, 既存の解釈可能性の定義が*動作可能ではないため, 基本的には不適切である,と論じる。
我々は、解釈可能性の定義が作用可能であるためには、*対称性*の観点で与えられる必要があると仮定する。
我々は4つの対称性が十分であると仮定する
(i)コア解釈可能性特性を動機づける
(ii)解釈可能なモデルのクラスを特徴づけ、
三 ベイズ的逆転の一形態として解釈可能な推論(例えば、アライメント、介入、反事実)を統一的に定式化すること。
関連論文リスト
- Towards the Formalization of a Trustworthy AI for Mining Interpretable Models explOiting Sophisticated Algorithms [4.587316936127635]
解釈可能な設計モデルは、信頼、説明責任、そして現実世界のアプリケーションにおける自動意思決定モデルの安全な採用を促進するために不可欠である。
我々は、解釈可能性と性能のバランスをとる予測モデルを生成するための包括的な方法論を定式化する。
モデル生成時の倫理的措置を評価することにより、この枠組みはAIシステムの開発のための理論的基盤を確立する。
論文 参考訳(メタデータ) (2025-10-23T14:54:33Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance [72.50214227616728]
解釈可能性法は、それらの説明が説明されたモデルを忠実に記述した場合にのみ有用である。
特定の対称性群の下で予測が不変であるニューラルネットワークを考える。
論文 参考訳(メタデータ) (2023-04-13T17:59:03Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。