論文の概要: MultiModal Action Conditioned Video Generation
- arxiv url: http://arxiv.org/abs/2510.02287v1
- Date: Thu, 02 Oct 2025 17:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.279545
- Title: MultiModal Action Conditioned Video Generation
- Title(参考訳): マルチモーダルアクションコンディショニングビデオ生成
- Authors: Yichen Li, Antonio Torralba,
- Abstract要約: 汎用的な家庭用ロボットは、微妙な作業や緊急状況に対処するために、リアルタイムの微細モータ制御を必要とする。
我々は, 運動感覚, 運動感覚, 力覚覚, 筋活動の感覚を考察する。
実験により,マルチモーダル感覚を取り入れることでシミュレーション精度が向上し,時間的ドリフトが低減されることが示された。
- 参考スコア(独自算出の注目度): 30.4362754101642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video models fail as world model as they lack fine-graiend control. General-purpose household robots require real-time fine motor control to handle delicate tasks and urgent situations. In this work, we introduce fine-grained multimodal actions to capture such precise control. We consider senses of proprioception, kinesthesia, force haptics, and muscle activation. Such multimodal senses naturally enables fine-grained interactions that are difficult to simulate with text-conditioned generative models. To effectively simulate fine-grained multisensory actions, we develop a feature learning paradigm that aligns these modalities while preserving the unique information each modality provides. We further propose a regularization scheme to enhance causality of the action trajectory features in representing intricate interaction dynamics. Experiments show that incorporating multimodal senses improves simulation accuracy and reduces temporal drift. Extensive ablation studies and downstream applications demonstrate the effectiveness and practicality of our work.
- Abstract(参考訳): 現在のビデオモデルは、細粒度制御が欠如しているため、世界モデルとして失敗する。
汎用的な家庭用ロボットは、微妙な作業や緊急状況に対処するために、リアルタイムの微細モータ制御を必要とする。
本研究では,このような精密な制御を捉えるための細粒度マルチモーダルアクションを提案する。
我々は, 運動感覚, 運動感覚, 力覚覚, 筋活動の感覚を考察する。
このようなマルチモーダル感覚は、テキスト条件付き生成モデルでシミュレートするのが難しいきめ細かい相互作用を自然に実現している。
本研究は, 細粒度多感動作を効果的にシミュレートするために, それぞれのモダリティが提供するユニークな情報を保持しつつ, それらのモダリティを整列する特徴学習パラダイムを開発する。
さらに,複雑な相互作用のダイナミクスを表現する上で,行動軌跡の特徴の因果性を高めるための正規化手法を提案する。
実験により,マルチモーダル感覚を取り入れることでシミュレーション精度が向上し,時間的ドリフトが低減されることが示された。
大規模なアブレーション研究と下流の応用は、我々の研究の有効性と実用性を示している。
関連論文リスト
- The Sound of Simulation: Learning Multimodal Sim-to-Real Robot Policies with Generative Audio [138.07247714782412]
MultiGenは、大規模な生成モデルを従来の物理シミュレータに統合するフレームワークである。
容器や液体を注ぐ現実世界への効果的なゼロショット転送を実証する。
論文 参考訳(メタデータ) (2025-07-03T17:59:58Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - PRIMAL: Physically Reactive and Interactive Motor Model for Avatar Learning [38.004463823796286]
我々は,対話型アバターの運動系を生成運動モデルとして定式化する。
基礎モデルの最近の進歩に触発されて,我々はPRIMALを提案する。
このモデルを利用して、Unreal Engineでリアルタイムのキャラクターアニメーションシステムを作成します。
論文 参考訳(メタデータ) (2025-03-21T21:27:57Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation [7.01404330241523]
HYPERmotionは、異なるシナリオのタスクに基づいて行動を学び、選択し、計画するフレームワークである。
強化学習と全身最適化を組み合わせることで,38関節の運動を生成する。
シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-06-20T18:21:24Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Learning Reactive and Predictive Differentiable Controllers for
Switching Linear Dynamical Models [7.653542219337937]
専門家による実証から複合ダイナミクス行動を学習するためのフレームワークを提示する。
システムダイナミクスの近接近似としてスイッチング条件にエンコードされた接点を持つスイッチング線形ダイナミクスモデルを学ぶ。
次に、データ効率のよい制御学習のための微分可能なポリシークラスとして離散時間LQRを使用し、制御戦略を開発する。
論文 参考訳(メタデータ) (2021-03-26T04:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。