論文の概要: Interpreting Transformers Through Attention Head Intervention
- arxiv url: http://arxiv.org/abs/2601.04398v1
- Date: Wed, 07 Jan 2026 21:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.924817
- Title: Interpreting Transformers Through Attention Head Intervention
- Title(参考訳): 注意頭干渉による変圧器の解釈
- Authors: Mason Kadem, Rong Zheng,
- Abstract要約: ニューラルネットワークは、自力でより機能的に成長していますが、ニューラルネットワークのメカニズムは理解していません。
これらのメカニズムの意思決定過程(機械的解釈可能性)を理解することで、(1)ハイテイク領域における説明責任と制御、(2)デジタル脳の研究と認知の出現、(3)AIシステムが人間を上回ったときの新しい知識の発見が可能になる。
- 参考スコア(独自算出の注目度): 2.359807654268406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks are growing more capable on their own, but we do not understand their neural mechanisms. Understanding these mechanisms' decision-making processes, or mechanistic interpretability, enables (1) accountability and control in high-stakes domains, (2) the study of digital brains and the emergence of cognition, and (3) discovery of new knowledge when AI systems outperform humans.
- Abstract(参考訳): ニューラルネットワークは、自力でより機能的に成長していますが、ニューラルネットワークのメカニズムは理解していません。
これらのメカニズムの意思決定過程(機械的解釈可能性)を理解することで、(1)ハイテイク領域における説明責任と制御、(2)デジタル脳の研究と認知の出現、(3)AIシステムが人間を上回ったときの新しい知識の発見が可能になる。
関連論文リスト
- Neural Brain: A Neuroscience-inspired Framework for Embodied Agents [78.61382193420914]
大規模な言語モデルのような現在のAIシステムは、いまだに解体され続けており、物理的に世界と関わりが持てない。
この課題の核心は、人間のような適応性を持つエンボディエージェントを駆動するために設計された中枢知能システムであるNeural Brain(ニューラル・ブレイン)の概念である。
本稿では,2つの基本的な課題に対処する,エンボディエージェントのニューラルブレインの統一的枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-12T15:05:34Z) - Multilevel Interpretability Of Artificial Neural Networks: Leveraging Framework And Methods From Neuroscience [7.180126523609834]
生体と人工のニューラルシステムの両方を解釈するには、これらのシステムを複数のレベルで分析する必要がある、と我々は主張する。
生体および人工神経系の解析に使用できる分析ツールのシリーズを提示する。
全体として、マルチレベル解釈可能性フレームワークは、ニューラルネットワークの複雑さに取り組むための原則化された方法を提供する。
論文 参考訳(メタデータ) (2024-08-22T18:17:20Z) - Mechanistic Interpretability for AI Safety -- A Review [28.427951836334188]
本稿では,機械的解釈可能性について概説する。
機械的解釈性は、AIシステムがより強力で精査されるにつれて、破滅的な結果を防ぐのに役立つ。
論文 参考訳(メタデータ) (2024-04-22T11:01:51Z) - Brain-Inspired Machine Intelligence: A Survey of
Neurobiologically-Plausible Credit Assignment [65.268245109828]
本稿では,神経生物学にインスパイアされた,あるいは動機付けられた人工ニューラルネットワークにおける信用割当を行うアルゴリズムについて検討する。
我々は、脳にインスパイアされた学習スキームを6つの一般的なファミリーにまとめ、これらを誤りのバックプロパゲーションの文脈で検討する。
本研究の成果は,神経ミメティックシステムとその構成的学習プロセスの今後の発展を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T05:20:57Z) - Brain-inspired learning in artificial neural networks: a review [5.064447369892274]
人工ニューラルネットワークにおける脳にインスパイアされた学習表現について概説する。
これらのネットワークの能力を高めるために, シナプス可塑性などの生物学的に妥当な機構の統合について検討する。
論文 参考訳(メタデータ) (2023-05-18T18:34:29Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。
具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文 参考訳(メタデータ) (2020-03-09T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。