論文の概要: AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipulation
- arxiv url: http://arxiv.org/abs/2512.18396v2
- Date: Fri, 13 Mar 2026 03:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.449357
- Title: AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipulation
- Title(参考訳): AOMGen:Articulated Object Manipulationのためのフォトリアルで物理に耐性のあるデモ生成
- Authors: Yulu Wu, Jiujun Cheng, Haowen Wang, Dengyang Suo, Pei Ren, Qichao Mao, Shangce Gao, Yakun Huang,
- Abstract要約: AOMGenは、調音操作のためのスケーラブルなデータ生成フレームワークである。
1つの実際のスキャン、デモ、利用可能なデジタル資産のライブラリからインスタンス化される。
- 参考スコア(独自算出の注目度): 14.0580149102174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language-Action (VLA) and world-model methods have improved generalization in tasks such as robotic manipulation and object interaction. However, Successful execution of such tasks depends on large, costly collections of real demonstrations, especially for fine-grained manipulation of articulated objects. To address this, we present AOMGen, a scalable data generation framework for articulated manipulation which is instantiated from a single real scan, demonstration and a library of readily available digital assets, yielding photoreal training data with verified physical states. The framework synthesizes synchronized multi-view RGB temporally aligned with action commands and state annotations for joints and contacts, and systematically varies camera viewpoints, object styles, and object poses to expand a single execution into a diverse corpus. Experimental results demonstrate that fine-tuning VLA policies on AOMGen data increases the success rate from 0% to 88.7%, and the policies are tested on unseen objects and layouts.
- Abstract(参考訳): 近年のVLA(Vision-Language-Action)や世界モデル手法の進歩により,ロボット操作やオブジェクトインタラクションといったタスクの一般化が向上している。
しかし、そのようなタスクの正常実行は、特に明瞭に表現されたオブジェクトの微妙な操作において、大規模でコストのかかる実演のコレクションに依存する。
そこで本研究では,1つの実スキャン,デモ,利用可能なデジタル資産のライブラリからインスタンス化され,検証済み物理状態のフォトリアルトレーニングデータが得られる,スケーラブルな調音操作用データ生成フレームワークであるAOMGenを提案する。
このフレームワークは、アクションコマンドや、ジョイントやコンタクトのための状態アノテーションと時間的に整合した同期マルチビューRGBを合成し、カメラ視点、オブジェクトスタイル、オブジェクトポーズを体系的に変更して、単一の実行を多様なコーパスに拡張する。
実験の結果、AOMGenデータに対する細調整VLAポリシーは成功率を0%から88.7%に引き上げ、未確認のオブジェクトやレイアウトでテストされた。
関連論文リスト
- Pixel2Catch: Multi-Agent Sim-to-Real Transfer for Agile Manipulation with a Single RGB Camera [3.219880761967806]
本研究は、単一のRGB画像から抽出した画素レベルの視覚情報を用いて物体の動きを認識する新しいアプローチに焦点を当てる。
多指ハンドを備えたロボットアームによる高DoFシステムにおいて安定した学習を実現するため、異種多エージェント強化学習フレームワークを設計する。
各エージェントは、ロール固有の観察と報酬を使用して協調的に訓練され、学習されたポリシーはシミュレーションから実世界に移される。
論文 参考訳(メタデータ) (2026-02-26T08:15:38Z) - SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。
本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。
DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。
AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文 参考訳(メタデータ) (2025-09-26T14:34:44Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。