論文の概要: Towards Worst-Case Guarantees with Scale-Aware Interpretability
- arxiv url: http://arxiv.org/abs/2602.05184v1
- Date: Thu, 05 Feb 2026 01:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.698061
- Title: Towards Worst-Case Guarantees with Scale-Aware Interpretability
- Title(参考訳): スケール・アウェア・インタプリタビリティによる最悪の保証に向けて
- Authors: Lauren Greenspan, David Berman, Aryeh Brill, Ro Jefferson, Artemy Kolchinsky, Jennifer Lin, Andrew Mack, Anindita Maiti, Fernando E. Rosas, Alexander Stapleton, Lucas Teixeira, Dmitry Vaintrob,
- Abstract要約: ニューラルネットワークは、自然データの階層的多スケール構造に従って情報を整理する。
我々は,形式機械と解釈可能性ツールを開発するための統一的な研究課題,即時対応型解釈可能性(enmphscale-aware interpretability)を提案する。
- 参考スコア(独自算出の注目度): 58.519943565092724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks organize information according to the hierarchical, multi-scale structure of natural data. Methods to interpret model internals should be similarly scale-aware, explicitly tracking how features compose across resolutions and guaranteeing bounds on the influence of fine-grained structure that is discarded as irrelevant noise. We posit that the renormalisation framework from physics can meet this need by offering technical tools that can overcome limitations of current methods. Moreover, relevant work from adjacent fields has now matured to a point where scattered research threads can be synthesized into practical, theory-informed tools. To combine these threads in an AI safety context, we propose a unifying research agenda -- \emph{scale-aware interpretability} -- to develop formal machinery and interpretability tools that have robustness and faithfulness properties supported by statistical physics.
- Abstract(参考訳): ニューラルネットワークは、自然データの階層的多スケール構造に従って情報を整理する。
モデル内部の解釈方法も同様にスケールアウェアで、解像度をまたいで機能がどのように構成されているかを明示的に追跡し、無関係なノイズとして排除されたきめ細かい構造の影響を保証すべきである。
我々は、現在の手法の限界を克服できる技術ツールを提供することで、物理からの再正規化フレームワークがこのニーズを満たすことができると仮定する。
さらに、隣接する分野からの関連する研究が成熟し、散在する研究スレッドを実用的な理論インフォームドツールに合成できるようになった。
AI安全性の文脈でこれらのスレッドを組み合わせるために、統計物理学によって支持される堅牢性と忠実性を持つ形式的な機械と解釈可能性ツールを開発するための統一された研究アジェンダ --emph{scale-aware interpretability} を提案する。
関連論文リスト
- Explainable Neural Inverse Kinematics for Obstacle-Aware Robotic Manipulation: A Comparative Analysis of IKNet Variants [0.28544513613730205]
ディープニューラルネットワークは、低コストのマニピュレータが複雑な軌道をリアルタイムで実行できる地点まで、逆運動学(IK)推論を加速させた。
本研究では,Shapley値属性と物理に基づく障害物回避評価を統合した説明可能性中心ワークフローを提案する。
論文 参考訳(メタデータ) (2025-12-29T09:02:02Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Information Science Principles of Machine Learning: A Causal Chain Meta-Framework Based on Formalized Information Mapping [7.299890614172539]
本研究は、機械学習における重要な課題、すなわち、統一的な形式的理論的枠組みの欠如と、モデル解釈可能性と倫理的安全性に関する基礎理論の欠如に対処する。
まず、一般的な機械学習段階における存在論的状態とキャリアマッピングを明確に定義し、形式的な情報モデルを構築する。
学習可能な述語と処理可能な述語を導入し、学習と処理機能を導入することにより、機械学習プロセスを管理する因果連鎖論理と制約法を解析する。
論文 参考訳(メタデータ) (2025-05-19T14:39:41Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。