論文の概要: Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT
- arxiv url: http://arxiv.org/abs/2603.11142v1
- Date: Wed, 11 Mar 2026 17:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.544452
- Title: Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT
- Title(参考訳): Atention Gathers, MLPs Compose: a Causal Analysis of a Action-Outcome Circuit in VideoViT
- Authors: Sai V R Chereddy,
- Abstract要約: 本稿では,分類タスクのために訓練された映像モデルが,最終結果に影響を与えないニュアンスな,隠された意味情報をどう表現するかを考察する。
アクションの結果を表す内部回路は、予め訓練されたビデオビジョン変換器でリバースエンジニアリングされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper explores how video models trained for classification tasks represent nuanced, hidden semantic information that may not affect the final outcome, a key challenge for Trustworthy AI models. Through Explainable and Interpretable AI methods, specifically mechanistic interpretability techniques, the internal circuit responsible for representing the action's outcome is reverse-engineered in a pre-trained video vision transformer, revealing that the "Success vs Failure" signal is computed through a distinct amplification cascade. While there are low-level differences observed from layer 0, the abstract and semantic representation of the outcome is progressively amplified from layers 5 through 11. Causal analysis, primarily using activation patching supported by ablation results, reveals a clear division of labor: Attention Heads act as "evidence gatherers", providing necessary low-level information for partial signal recovery, while MLP Blocks function as robust "concept composers", each of which is the primary driver to generate the "success" signal. This distributed and redundant circuit in the model's internals explains its resilience to simple ablations, demonstrating a core computational pattern for processing human-action outcomes. Crucially, the existence of this sophisticated circuit for representing complex outcomes, even within a model trained only for simple classification, highlights the potential for models to develop forms of 'hidden knowledge' beyond their explicit task, underscoring the need for mechanistic oversight for building genuinely Explainable and Trustworthy AI systems intended for deployment.
- Abstract(参考訳): 分類タスクのために訓練されたビデオモデルは、最終結果に影響を与えない、ニュアンスで隠されたセマンティックな情報をどのように表現するかについて、信頼に値するAIモデルにとって重要な課題である。
説明可能な、解釈可能なAI手法、特に機械的解釈可能性技術を通じて、アクションの結果を表す内部回路は、事前訓練されたビデオビジョン変換器でリバースエンジニアリングされ、"Success vs Failure"信号は、異なる増幅カスケードを介して計算される。
層0から観測される低レベル差はあるが、結果の抽象的、意味的表現は層5〜11から徐々に増幅される。
注意頭は「証拠収集者」として機能し、部分的な信号回復に必要な低レベル情報を提供する一方、MLPブロックは「コンセプト作曲家」として機能し、それぞれが「成功」信号を生成する主要なドライバである。
モデルの内部にあるこの分散冗長回路は、単純なアブレーションに対するレジリエンスを説明し、人間の行動結果を処理するためのコア計算パターンを実証している。
重要なことに、複雑な結果を表すこの洗練された回路の存在は、単純な分類のためにのみ訓練されたモデル内においても、モデルが明示的なタスクを超えて「隠れた知識」の形式を開発する可能性を強調し、真に説明可能な信頼できるAIシステムを構築するための機械的監視の必要性を強調している。
関連論文リスト
- Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis [3.1526281887627587]
モデル一般化の予測には推論からのリコールの排除が不可欠である。
我々は、制御された合成言語パズルのデータセットを使用して、層、頭、ニューロンレベルでトランスフォーマーモデルを探索する。
この結果から、リコールと推論は変換器モデルにおける分離可能だが相互作用する回路に依存しているという最初の因果的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-03T04:13:06Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures [13.422002958854936]
本研究は, ポストホックな説明と半教師付き学習を組み合わせて, 異常な説明を自動的に識別するフレームワークを提案する。
提案するフレームワークは,送電網インフラ監視のための絶縁体シェルのドローンによる画像に応用される。
2つの欠陥クラスの平均分類精度は8%向上し、メンテナンス作業者は画像の15%しか手動で再分類する必要がある。
論文 参考訳(メタデータ) (2025-03-19T16:57:00Z) - Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning [9.795934690403374]
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。
回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。
提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
論文 参考訳(メタデータ) (2025-02-13T07:19:05Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - A Closer Look at Reward Decomposition for High-Level Robotic
Explanations [18.019811754800767]
本稿では、報酬分解と抽象的な行動空間を組み合わせたQ-Map学習フレームワークを提案する。
本稿では,2つのロボットシナリオの定量的,定性的な分析を通じて,本フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T16:01:42Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。