論文の概要: Actionable Interpretability Must Be Defined in Terms of Symmetries
- arxiv url: http://arxiv.org/abs/2601.12913v2
- Date: Wed, 28 Jan 2026 16:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 13:43:08.971973
- Title: Actionable Interpretability Must Be Defined in Terms of Symmetries
- Title(参考訳): 対称性の観点で解釈可能性を定義する必要がある
- Authors: Pietro Barbiero, Mateo Espinosa Zarlenga, Francesco Giannini, Alberto Termine, Filippo Bonchi, Mateja Jamnik, Giuseppe Marra,
- Abstract要約: 本稿では、人工知能(AI)における解釈可能性の研究は、既存の定義では、どのように解釈可能性が公式にテストされるか、あるいは設計されるのかを記述できないため、基本的には不適切である、と論じる。
我々は、解釈可能性の実行可能な定義は、モデル設計を通知し、テスト可能な条件に導く*対称性*という用語で定式化されなければならないと仮定する。
- 参考スコア(独自算出の注目度): 37.964025348175504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper argues that interpretability research in Artificial Intelligence (AI) is fundamentally ill-posed as existing definitions of interpretability fail to describe how interpretability can be formally tested or designed for. We posit that actionable definitions of interpretability must be formulated in terms of *symmetries* that inform model design and lead to testable conditions. Under a probabilistic view, we hypothesise that four symmetries (inference equivariance, information invariance, concept-closure invariance, and structural invariance) suffice to (i) formalise interpretable models as a subclass of probabilistic models, (ii) yield a unified formulation of interpretable inference (e.g., alignment, interventions, and counterfactuals) as a form of Bayesian inversion, and (iii) provide a formal framework to verify compliance with safety standards and regulations.
- Abstract(参考訳): 本稿では、人工知能(AI)における解釈可能性の研究は、既存の解釈可能性の定義が、どのように解釈可能性をどのように公式にテストするか、あるいは設計するかを記述できないため、基本的には不備である、と論じる。
我々は、解釈可能性の実行可能な定義は、モデル設計を通知し、テスト可能な条件に導く*対称性*という用語で定式化されなければならないと仮定する。
確率論的見解の下では、4つの対称性(推論同値、情報不変性、概念閉包不変性、構造不変性)が十分であると仮定する。
(i)確率モデルのサブクラスとして解釈可能なモデルを定式化する。
2)解釈可能な推論(例えば、アライメント、介入、反事実)をベイズ反転の形式として統一した定式化し、
三 安全基準及び規程の遵守を検証するための正式な枠組みを提供する。
関連論文リスト
- Towards the Formalization of a Trustworthy AI for Mining Interpretable Models explOiting Sophisticated Algorithms [4.587316936127635]
解釈可能な設計モデルは、信頼、説明責任、そして現実世界のアプリケーションにおける自動意思決定モデルの安全な採用を促進するために不可欠である。
我々は、解釈可能性と性能のバランスをとる予測モデルを生成するための包括的な方法論を定式化する。
モデル生成時の倫理的措置を評価することにより、この枠組みはAIシステムの開発のための理論的基盤を確立する。
論文 参考訳(メタデータ) (2025-10-23T14:54:33Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance [72.50214227616728]
解釈可能性法は、それらの説明が説明されたモデルを忠実に記述した場合にのみ有用である。
特定の対称性群の下で予測が不変であるニューラルネットワークを考える。
論文 参考訳(メタデータ) (2023-04-13T17:59:03Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。