論文の概要: Active Intelligence in Video Avatars via Closed-loop World Modeling
- arxiv url: http://arxiv.org/abs/2512.20615v1
- Date: Tue, 23 Dec 2025 18:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.989012
- Title: Active Intelligence in Video Avatars via Closed-loop World Modeling
- Title(参考訳): 閉ループ世界モデリングによるビデオアバターのアクティブインテリジェンス
- Authors: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen,
- Abstract要約: 現在のビデオアバター生成法は、アイデンティティの保存と動きのアライメントが優れているが、真のエージェンシーは欠如している。
本稿では,L-IVA (Long-Horizon Interactive Visual Avatar) の導入について述べる。
また,ビデオアバターにおける能動的インテリジェンスを実現する最初のフレームワークであるORCAについても紹介する。
- 参考スコア(独自算出の注目度): 55.29966567726842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.
- Abstract(参考訳): 現在のビデオアバター生成法は、アイデンティティの保存と動きのアライメントが優れているが、真のエージェンシーが欠如しているため、適応的な環境相互作用を通じて長期目標を自律的に追求することはできない。
本稿では,L-IVA (Long-Horizon Interactive Visual Avatar) とORCA (Online Reasoning and Cognitive Architecture) を導入した。
ORCAは、2つの重要な革新を通じて内的世界モデル(IWM)の能力を具現化している:(1)実世代に対する予測結果の連続的検証により、系統的不確実性の下で堅牢な状態追跡を維持するクローズドループOTARサイクル(Observe-Think-Act-Reflect)、(2)システム2が状態予測による戦略的推論を行う階層的二重システムアーキテクチャ。
ORCAは、POMDPとしてアバター制御を定式化し、結果検証による継続的な信念更新を実装することにより、オープンドメインシナリオにおける自律的なマルチステップタスク完了を可能にする。
大規模な実験により、ORCAはタスク成功率と行動コヒーレンスにおいてオープンループと非反射ベースラインを著しく上回り、IWMにインスパイアされた設計が受動アニメーションからアクティブな目標指向の行動へと進化するのを実証した。
関連論文リスト
- Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。
Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文 参考訳(メタデータ) (2025-10-28T10:42:57Z) - Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文 参考訳(メタデータ) (2025-10-10T17:30:18Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。
最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。
第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-03T12:52:27Z) - Domain Generalization using Action Sequences for Egocentric Action Recognition [22.373604443667134]
エゴセントリックな視覚は、観察者が着用するカメラによって特徴づけられ、照明、視点、環境の様々な変化を捉えている。
本稿では,エゴセントリック行動認識のための領域一般化手法を提案する。
アクションシーケンスを活用することで、目に見えない環境にまたがるモデルの一般化能力を高めることを目指している。
論文 参考訳(メタデータ) (2025-06-21T11:33:08Z) - EASE: Embodied Active Event Perception via Self-Supervised Energy Minimization [6.249768559720122]
アクティブイベント認識は、人間とAIのコラボレーション、補助ロボット工学、自律ナビゲーションといったタスクにおいて、インテリジェンスを具現化する上で不可欠である。
本稿では,自由エネルギーによる表現学習と具体化制御を一体化する自己教師型フレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2025-06-20T23:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。