論文の概要: ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control
- arxiv url: http://arxiv.org/abs/2604.27711v1
- Date: Thu, 30 Apr 2026 10:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.053102
- Title: ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control
- Title(参考訳): ExoActor: 汎用的な対話型ヒューマノイド制御のためのビデオ生成
- Authors: Yanghao Zhou, Jingyu Ma, Yibo Peng, Zhenguo Sun, Yu Bai, Börje F. Karlsson,
- Abstract要約: 相互作用に富むヒューマノイドの振る舞いをモデリングするための新しいフレームワークであるExoActorを提案する。
ExoActorは相互作用に富むヒューマノイドの振る舞いをモデル化するためのスケーラブルなアプローチを提供する。
- 参考スコア(独自算出の注目度): 5.7417395848963855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid control systems have made significant progress in recent years, yet modeling fluent interaction-rich behavior between a robot, its surrounding environment, and task-relevant objects remains a fundamental challenge. This difficulty arises from the need to jointly capture spatial context, temporal dynamics, robot actions, and task intent at scale, which is a poor match to conventional supervision. We propose ExoActor, a novel framework that leverages the generalization capabilities of large-scale video generation models to address this problem. The key insight in ExoActor is to use third-person video generation as a unified interface for modeling interaction dynamics. Given a task instruction and scene context, ExoActor synthesizes plausible execution processes that implicitly encode coordinated interactions between robot, environment, and objects. Such video output is then transformed into executable humanoid behaviors through a pipeline that estimates human motion and executes it via a general motion controller, yielding a task-conditioned behavior sequence. To validate the proposed framework, we implement it as an end-to-end system and demonstrate its generalization to new scenarios without additional real-world data collection. Furthermore, we conclude by discussing limitations of the current implementation and outlining promising directions for future research, illustrating how ExoActor provides a scalable approach to modeling interaction-rich humanoid behaviors, potentially opening a new avenue for generative models to advance general-purpose humanoid intelligence.
- Abstract(参考訳): 近年、ヒューマノイド制御システムは大きな進歩を遂げているが、ロボット、その周囲環境、タスク関連オブジェクト間の流動的な相互作用に富む振る舞いをモデル化することは、依然として根本的な課題である。
この難しさは、空間的コンテキスト、時間的ダイナミクス、ロボットの動作、スケールにおけるタスク意図を共同で捉える必要性から生じる。
本稿では,大規模ビデオ生成モデルの一般化機能を活用した新しいフレームワークであるExoActorを提案する。
ExoActorの重要な洞察は、インタラクションのダイナミクスをモデリングするための統一インターフェースとして、サードパーティのビデオ生成を使用することである。
タスク命令とシーンコンテキストが与えられたとき、ExoActorはロボット、環境、オブジェクト間の協調的な相互作用を暗黙的に符号化する、もっともらしい実行プロセスを合成する。
このようなビデオ出力は、人間の動きを推定するパイプラインを通して実行可能なヒューマノイドの動作に変換され、一般的なモーションコントローラを介して実行され、タスク条件の動作シーケンスが生成される。
提案手法をエンド・ツー・エンド・システムとして実装し,実世界のデータ収集を伴わずに新たなシナリオへの一般化を実証する。
さらに,エクソアクターが相互作用に富んだヒューマノイドの振る舞いをモデル化するためのスケーラブルなアプローチを提供し,汎用ヒューマノイドインテリジェンスを推し進めるための生成モデルの新たな道を開く可能性を示唆した。
関連論文リスト
- Astra: General Interactive World Model with Autoregressive Denoising [73.6594791733982]
Astraはインタラクティブな汎用世界モデルであり、多様なシナリオのために現実世界の未来を生成する。
本稿では,自己回帰型認知型アーキテクチャを提案し,時間的因果的注意を用いて過去の観測を集約する。
Astraはインタラクティブで一貫性があり、一般的な長期的なビデオ予測を実現し、様々な形式のインタラクションをサポートする。
論文 参考訳(メタデータ) (2025-12-09T18:59:57Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。