論文の概要: X-Imitator: Spatial-Aware Imitation Learning via Bidirectional Action-Pose Interaction
- arxiv url: http://arxiv.org/abs/2605.12162v1
- Date: Tue, 12 May 2026 14:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.907531
- Title: X-Imitator: Spatial-Aware Imitation Learning via Bidirectional Action-Pose Interaction
- Title(参考訳): X-Imitator:双方向行動-空間相互作用による空間認識模倣学習
- Authors: Kai Xiong, Hongjie Fang, Lixin Yang, Cewu Lu,
- Abstract要約: X-イミッタ(X-Imitator)は、空間知覚と行動実行を密結合した双方向ループとしてモデル化する多目的デュアルパスフレームワークである。
モジュラーアーキテクチャとして設計され、様々なビジュモータポリシーにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 47.55207856290542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively handling the interplay between spatial perception and action generation remains a critical bottleneck in robotic manipulation. Existing methods typically treat spatial perception and action execution as decoupled or strictly unidirectional processes, fundamentally restricting a robot's ability to master complex manipulation tasks. To address this, we propose X-Imitator, a versatile dual-path framework that models spatial perception and action execution as a tightly coupled bidirectional loop. By reciprocally conditioning current pose predictions on past actions and vice versa, this framework enables continuous mutual refinement between spatial reasoning and action generation. This joint modeling exactly mimics human internal forward models. Designed as a modular architecture, the system can be seamlessly integrated into various visuomotor policies. Extensive experiments across 24 simulated and 3 real-world tasks demonstrate that our framework significantly outperforms both vanilla policies and prior methods utilizing explicit pose guidance. The code will be open sourced.
- Abstract(参考訳): 空間知覚と行動生成の相互作用を効果的に扱うことは、ロボット操作において重要なボトルネックである。
既存の方法は、通常、空間知覚と行動実行を分離されたまたは厳密に一方向のプロセスとして扱い、ロボットが複雑な操作タスクをマスターする能力を根本的に制限する。
そこで本稿では,空間認識と行動実行を密結合した双方向ループとしてモデル化する多目的デュアルパスフレームワークであるX-Imitatorを提案する。
過去の行動に対する現在のポーズ予測を相互に条件付けすることにより、空間的推論と行動生成の連続的な相互改善を可能にする。
このジョイントモデリングは、人間の内部フォワードモデルを正確に模倣する。
モジュラーアーキテクチャとして設計され、様々なビジュモータポリシーにシームレスに統合できる。
24のシミュレーションと3つの実世界のタスクにわたる大規模な実験により、我々のフレームワークはバニラポリシーと明示的なポーズガイダンスを用いた事前手法の両方を著しく上回っていることが示された。
コードはオープンソース化される。
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - PMG: Progressive Motion Generation via Sparse Anchor Postures Curriculum Learning [5.247557449370603]
ProMoGenは、軌跡誘導とスパースアンカー動作制御を統合する新しいフレームワークである。
ProMoGenは、統合トレーニングプロセス内で、二重制御パラダイムと単一制御パラダイムの両方をサポートする。
われわれのアプローチはパーソナライズされた動作と構造化されたガイダンスをシームレスに統合し、最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-04-23T13:51:42Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。