論文の概要: Interpretability as Alignment: Making Internal Understanding a Design Principle
- arxiv url: http://arxiv.org/abs/2509.08592v1
- Date: Wed, 10 Sep 2025 13:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.437328
- Title: Interpretability as Alignment: Making Internal Understanding a Design Principle
- Title(参考訳): アライメントとしての解釈可能性:設計原則を内部的に理解する
- Authors: Aadit Sengupta, Pratinav Seth, Vinay Kumar Sankarapu,
- Abstract要約: 解釈可能性(Interpretability)は、アウトプットを駆動する計算を明らかにすることによって、内部透明性への道筋を提供する。
我々は、解釈可能性、特に機械的アプローチは、補助的な診断ツールではなく、アライメントのための設計原則として扱うべきであると論じている。
- 参考スコア(独自算出の注目度): 3.6704226968275253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large neural models are increasingly deployed in high-stakes settings, raising concerns about whether their behavior reliably aligns with human values. Interpretability provides a route to internal transparency by revealing the computations that drive outputs. We argue that interpretability especially mechanistic approaches should be treated as a design principle for alignment, not an auxiliary diagnostic tool. Post-hoc methods such as LIME or SHAP offer intuitive but correlational explanations, while mechanistic techniques like circuit tracing or activation patching yield causal insight into internal failures, including deceptive or misaligned reasoning that behavioral methods like RLHF, red teaming, or Constitutional AI may overlook. Despite these advantages, interpretability faces challenges of scalability, epistemic uncertainty, and mismatches between learned representations and human concepts. Our position is that progress on safe and trustworthy AI will depend on making interpretability a first-class objective of AI research and development, ensuring that systems are not only effective but also auditable, transparent, and aligned with human intent.
- Abstract(参考訳): 大規模なニューラルモデルは、ハイステークな環境でますます展開され、その振る舞いが人間の価値観と確実に一致しているかどうかについての懸念が高まっている。
解釈可能性(Interpretability)は、アウトプットを駆動する計算を明らかにすることによって、内部透明性への道筋を提供する。
我々は、解釈可能性、特に機械的アプローチは、補助的な診断ツールではなく、アライメントのための設計原則として扱うべきであると論じている。
LIMEやSHAPのようなポストホックな手法は直感的だが相関的な説明を提供する一方で、回路トレースやアクティベーションパッチングのようなメカニカルな手法は、RLHFやレッドチーム、コンスティチューションAIといった行動的手法が見過ごされる可能性があるという偽りやミスアライメントを含む内部の失敗に対する因果的な洞察をもたらす。
これらの利点にもかかわらず、解釈可能性は、スケーラビリティ、疫学的な不確実性、学習された表現と人間の概念のミスマッチといった課題に直面している。
私たちの立場では、安全で信頼性の高いAIの進歩は、解釈可能性をAIの研究と開発の第1級の目的にすることに依存し、システムは効果的であるだけでなく、監査可能で、透明性があり、人間の意図と整合していることを保証する。
関連論文リスト
- Is Trust Correlated With Explainability in AI? A Meta-Analysis [0.0]
我々は、AI説明可能性と信頼の関係を探るため、既存の文献を網羅的に調査する。
我々の分析では、90の研究データを取り入れた結果、AIシステムの説明可能性と彼らが与える信頼との間に統計的に有意だが適度な正の相関関係が明らかとなった。
この研究は、特に説明責任の促進と、医療や司法などの重要な領域におけるユーザの信頼の促進において、社会技術的に幅広い影響を強調している。
論文 参考訳(メタデータ) (2025-04-16T23:30:55Z) - Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。
MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文 参考訳(メタデータ) (2025-03-22T22:13:14Z) - Interpretable Concept-Based Memory Reasoning [12.562474638728194]
コンセプトベースのメモリリゾナー(CMR)は、人間に理解でき、検証可能なタスク予測プロセスを提供するために設計された新しいCBMである。
CMRは、最先端のCBMに対する精度-解釈可能性のトレードオフを向上し、基礎的な真実と整合した論理規則を発見し、規則の介入を可能にし、事前デプロイ検証を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:32:48Z) - Mechanistic Interpretability for AI Safety -- A Review [28.427951836334188]
本稿では,機械的解釈可能性について概説する。
機械的解釈性は、AIシステムがより強力で精査されるにつれて、破滅的な結果を防ぐのに役立つ。
論文 参考訳(メタデータ) (2024-04-22T11:01:51Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Mathematical Algorithm Design for Deep Learning under Societal and
Judicial Constraints: The Algorithmic Transparency Requirement [65.26723285209853]
計算モデルにおける透過的な実装が実現可能かどうかを分析するための枠組みを導出する。
以上の結果から,Blum-Shub-Smale Machinesは,逆問題に対する信頼性の高い解法を確立できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-18T15:32:38Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - Uncertainty as a Form of Transparency: Measuring, Communicating, and
Using Uncertainty [66.17147341354577]
我々は,モデル予測に関連する不確実性を推定し,伝達することにより,相補的な透明性の形式を考えることについて議論する。
モデルの不公平性を緩和し、意思決定を強化し、信頼できるシステムを構築するために不確実性がどのように使われるかを説明する。
この研究は、機械学習、可視化/HCI、デザイン、意思決定、公平性にまたがる文学から引き出された学際的レビューを構成する。
論文 参考訳(メタデータ) (2020-11-15T17:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。