Fugu-MT 論文翻訳(概要): Causal Physics Steering in Video World Models via Concept Activation Vectors

論文の概要: Causal Physics Steering in Video World Models via Concept Activation Vectors

arxiv url: http://arxiv.org/abs/2605.24322v1
Date: Sat, 23 May 2026 01:02:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:17.932065
Title: Causal Physics Steering in Video World Models via Concept Activation Vectors
Title（参考訳）: 概念活性化ベクトルによるビデオ世界モデルにおける因果物理ステアリング
Authors: Nahid Alam,
Abstract要約: ビデオモデルは物理力学の表現を学習するが、推論時間における物理的な期待を制御することは未解決の問題である。最近の解釈可能性の研究は、物理的可視性は他の視覚的特徴とは別個に表現される物理エネルジェンスゾーン(PEZ)を特定した。本稿では,PEZ層における線形プローブの重みベクトルを概念活性化ベクトル(Concept Activation Vector, CAV)として利用し, 推論中に隠れ状態に注入する物理ステアリングについて述べる。
参考スコア（独自算出の注目度）: 4.111899441919164
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video world models learn representations of physical dynamics, but controlling their physical expectations at inference time remains an open problem. Recent interpretability work identified a Physics Emergence Zone (PEZ), a group of middle transformer layers in VideoMAE where physical plausibility is represented separately from other visual features. However, it remained unclear whether this structure could be used to directly control the model's physics reasoning. We present physics steering, a training-free method that uses the weight vector of a linear probe at a PEZ layer as a Concept Activation Vector (CAV) and injects it into hidden states during inference. This shifts the model's physical expectations without changing any model weights. On the IntPhys benchmark, this intervention reliably shifts the model's plausibility judgment in either direction, depending on the steering sign. The effect appears only when the intervention is applied within the Physics Emergence Zone, suggesting that the relevant physics representation is localized there. We further find that physics is encoded separately from motion direction, and that different intuitive physics principles occupy distinct directions within this representation space. Together, these results show that physical reasoning in VideoMAE is not only readable, but also directly steerable.
Abstract（参考訳）: ビデオワールドモデルは物理力学の表現を学習するが、推論時間における物理的な期待を制御することは未解決の問題である。近年の解釈可能性調査では、他の視覚的特徴とは別の物理可視性を示すビデオMAEの中間変圧器層群であるPhysical Emergence Zone (PEZ)が特定されている。しかし、この構造がモデルの物理推論を直接制御できるかどうかは不明のままである。本稿では,PEZ層における線形プローブの重みベクトルを概念活性化ベクトル(Concept Activation Vector, CAV)として利用し, 推論中に隠れ状態に注入する物理ステアリングについて述べる。これはモデルの重みを変えることなく、モデルの物理的期待をシフトさせる。 IntPhysベンチマークでは、この介入は、ステアリングサインに応じて、モデルの可否判定をどちらの方向でも確実にシフトさせる。この効果は、物理エネルジェンスゾーン内で介入が適用される場合にのみ現れ、関連する物理表現がそこで局所化されることを示唆している。さらに、物理は運動方向とは別個に符号化されており、異なる直感的な物理原理がこの表現空間内の異なる方向を占めることが分かる。これらの結果から, VideoMAEの物理的推論は可読性だけでなく, 直接操作性も示唆された。

関連論文リスト

PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。 i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文参考訳（メタデータ） (2026-04-30T17:53:03Z)
Interpreting Physics in Video World Models [28.27323417999283]
物理推論における長年の疑問は、ビデオベースのモデルが物理変数の分解表現に依存する必要があるかどうかである。本稿では,大規模ビデオエンコーダ内の物理表現を調べるための最初の解釈可能性研究について述べる。現代のビデオモデルは、古典的な物理エンジンのような物理変数の分解表現を使用しない。
論文参考訳（メタデータ） (2026-02-04T15:19:19Z)
Physics Steering: Causal Control of Cross-Domain Concepts in a Physics Foundation Model [13.900251746035012]
大規模物理基礎モデルの内部表現について検討する。推論中に概念の方向をモデルに注入することで、予測を操ることができる。本研究は,科学基盤モデルの理解と制御のための新たな道を開く。
論文参考訳（メタデータ） (2025-11-25T19:40:22Z)
LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文参考訳（メタデータ） (2025-10-13T15:19:07Z)
PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文参考訳（メタデータ） (2025-09-24T17:58:04Z)
Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文参考訳（メタデータ） (2024-06-18T16:37:44Z)
Physics-Guided Human Motion Capture with Pose Probability Modeling [35.159506668475565]
既存の解は常にキネマティックな結果を参照運動として採用し、物理は後処理モジュールとして扱われる。本研究では,逆拡散過程における物理法則を用いて,モデル化されたポーズ確率分布から人間の動きを再構成する。数回の反復で、物理に基づく追跡とキネマティック・デノゲーションは互いに促進し、物理的に妥当な人間の動きを生成する。
論文参考訳（メタデータ） (2023-08-19T05:28:03Z)
Trajectory Optimization for Physics-Based Reconstruction of 3d Human Pose from Monocular Video [31.96672354594643]
本研究は,単眼映像から身体的に可視な人間の動きを推定する作業に焦点をあてる。物理を考慮しない既存のアプローチは、しばしば運動人工物と時間的に矛盾した出力を生み出す。提案手法は,Human3.6Mベンチマークにおける既存の物理法と競合する結果が得られることを示す。
論文参考訳（メタデータ） (2022-05-24T18:02:49Z)
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文参考訳（メタデータ） (2021-10-28T17:59:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。