論文の概要: LOME: Learning Human-Object Manipulation with Action-Conditioned Egocentric World Model
- arxiv url: http://arxiv.org/abs/2603.27449v1
- Date: Sat, 28 Mar 2026 23:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.964006
- Title: LOME: Learning Human-Object Manipulation with Action-Conditioned Egocentric World Model
- Title(参考訳): LOME:行動記述型エゴセントリック世界モデルによる人体操作の学習
- Authors: Quankai Gao, Jiawei Yang, Qiangeng Xu, Le Chen, Yue Wang,
- Abstract要約: LOMEは、入力画像、テキストプロンプト、フレームごとのヒューマンアクションに条件付けされたビデオとして、現実的な人間とオブジェクトのインタラクションを生成することができる。
LOMEは、空間的人間の行動を共同で推定することで、オブジェクト操作に強力で正確なアクションガイダンスを注入する。
LOMEは、シミュレーション環境に制限されずに、AR/VR体験とスケーラブルなロボットトレーニングの道を開く。
- 参考スコア(独自算出の注目度): 14.98308724969322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning human-object manipulation presents significant challenges due to its fine-grained and contact-rich nature of the motions involved. Traditional physics-based animation requires extensive modeling and manual setup, and more importantly, it neither generalizes well across diverse object morphologies nor scales effectively to real-world environment. To address these limitations, we introduce LOME, an egocentric world model that can generate realistic human-object interactions as videos conditioned on an input image, a text prompt, and per-frame human actions, including both body poses and hand gestures. LOME injects strong and precise action guidance into object manipulation by jointly estimating spatial human actions and the environment contexts during training. After finetuning a pretrained video generative model on videos of diverse egocentric human-object interactions, LOME demonstrates not only high action-following accuracy and strong generalization to unseen scenarios, but also realistic physical consequences of hand-object interactions, e.g., liquid flowing from a bottle into a mug after executing a ``pouring'' action. Extensive experiments demonstrate that our video-based framework significantly outperforms state-of-the-art image based and video-based action-conditioned methods and Image/Text-to-Video (I/T2V) generative model in terms of both temporal consistency and motion control. LOME paves the way for photorealistic AR/VR experiences and scalable robotic training, without being limited to simulated environments or relying on explicit 3D/4D modeling.
- Abstract(参考訳): 人間の物体の操作を学習することは、その微粒で接触に富んだ動きの性質のために重大な課題を呈する。
伝統的な物理学に基づくアニメーションは、広範囲なモデリングと手動のセットアップを必要とするが、より重要なのは、多様な物体形態や実世界の環境に効果的にスケールすることもできないことである。
これらの制約に対処するため、LOMEは、入力画像やテキストプロンプト、フレームごとの人間の行動、身体のポーズや手振りなど、リアルな人間とオブジェクトの相互作用を生成できる、エゴセントリックな世界モデルである。
LOMEは、トレーニング中の空間的人間の行動と環境コンテキストを共同で推定することにより、オブジェクト操作に強力で正確なアクションガイダンスを注入する。
多様なエゴセントリックな人間と物体の相互作用のビデオに事前学習されたビデオ生成モデルを微調整した後、LOMEは「ポーリング」アクションを実行した後、ボトルからマグカップに流れる液体など、手と物体の相互作用の現実的な物理的結果も示す。
広汎な実験により、我々のビデオベースフレームワークは、時間的一貫性と動き制御の両方の観点から、最先端の映像ベースおよび映像ベースアクションコンディショニング手法と画像/テキスト・ビデオ(I/T2V)生成モデルとを著しく上回っていることが示された。
LOMEは、シミュレーション環境や明示的な3D/4Dモデリングに頼ることなく、フォトリアリスティックなAR/VR体験とスケーラブルなロボットトレーニングを実現する。
関連論文リスト
- PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction [52.44375492811009]
物理学に基づくシミュレーターにおいて,ヒューマノイド制御のための視覚行動ポリシーを学習する統合フレームワークであるPhysHMRを提案する。
我々のアプローチの重要な要素はピクセル・アズ・レイ戦略であり、2次元のキーポイントを3次元空間に上げ、それらを大域空間に変換する。
PhysHMRは多種多様なシナリオにまたがって高忠実で物理的に妥当な動きを生じさせ、視覚的精度と身体的リアリズムの両方において以前のアプローチより優れている。
論文 参考訳(メタデータ) (2025-10-02T21:01:11Z) - SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning [6.255814224573073]
SimGenHOIは、生成モデリングと強化学習の強みを組み合わせた統一的なフレームワークであり、制御可能で物理的に妥当なHOIを生成する。
本研究では,Diffusion Transformers (DiT) に基づくHOI生成モデルを用いて,テキストプロンプト,オブジェクト形状,スパースオブジェクトウェイポイント,初期ヒューマノイドポーズのセットを予測した。
身体的現実性を確保するため,強化学習で訓練された接触認識全身制御ポリシーを設計し,その動作をトラッキングし,侵入や足の滑りなどのアーティファクトを補正する。
論文 参考訳(メタデータ) (2025-08-18T15:20:46Z) - Half-Physics: Enabling Kinematic 3D Human Model with Physical Interactions [89.88331682333198]
SMPL-Xを周囲との動的物理的相互作用が可能な有形実体に埋め込む新しい手法を提案する。
本手法は,シーンやオブジェクトとの物理的に妥当な相互作用を確保しつつ,固有のSMPL-Xポーズの運動制御を維持する。
広範かつ複雑な訓練を必要とする強化学習法とは異なり、ハーフフィック法は学習自由であり、あらゆる身体形状や運動に一般化する。
論文 参考訳(メタデータ) (2025-07-31T17:58:33Z) - Whole-Body Conditioned Egocentric Video Prediction [98.94980209293776]
我々は、人間行動(PEVA)からエゴ中心のビデオを予測するモデルを訓練する。
身体の関節階層によって構成される運動的ポーズの軌跡を条件にすることで,人間の身体行動が1対1の視点から環境をどう形成するかをシミュレートする。
我々の研究は、複雑な現実世界の環境をモデル化し、人間の視点から映像を予測するエージェントの振る舞いを具体化するための最初の試みである。
論文 参考訳(メタデータ) (2025-06-26T17:59:59Z) - Controlling the World by Sleight of Hand [26.874176292105556]
我々は、物体と相互作用する人間の手のラベルなしビデオから学習することで、行動条件生成モデルを学ぶ。
画像と、所望のハンドインタラクションの形状/位置が与えられた場合、CosHandは、インタラクションが発生した後の未来のイメージを合成する。
実験により、結果のモデルが手動物体の相互作用の効果をよく予測できることが示されている。
論文 参考訳(メタデータ) (2024-08-13T18:33:45Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - Kinematics-Guided Reinforcement Learning for Object-Aware 3D Ego-Pose
Estimation [25.03715978502528]
本研究では,物体の相互作用と人体動態を3次元エゴ位置推定のタスクに組み込む手法を提案する。
我々は人体の運動モデルを用いて、人間の運動の全範囲を表現し、身体の力学モデルを用いて、物理学シミュレータ内の物体と相互作用する。
これは、エゴセントリックなビデオからオブジェクトと物理的に有効な3Dフルボディインタラクションシーケンスを推定する最初の試みである。
論文 参考訳(メタデータ) (2020-11-10T00:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。