論文の概要: AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2507.01961v1
- Date: Wed, 02 Jul 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.449835
- Title: AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation
- Title(参考訳): AC-DiT:モバイルマニピュレーションのための適応座標拡散変換器
- Authors: Sixiang Chen, Jiaming Liu, Siyuan Qian, Han Jiang, Lily Li, Renrui Zhang, Zhuoyang Liu, Chenyang Gu, Chengkai Hou, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang,
- Abstract要約: 移動操作は、家庭作業において言語条件のロボット制御を可能にすることで注目を集めている。
既存の手法では、移動体ベースがマニピュレータ制御に与える影響を明示的にモデル化することができない。
本稿では,適応座標拡散変換器 (AC-DiT) を提案する。
- 参考スコア(独自算出の注目度): 31.314066269767057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, mobile manipulation has attracted increasing attention for enabling language-conditioned robotic control in household tasks. However, existing methods still face challenges in coordinating mobile base and manipulator, primarily due to two limitations. On the one hand, they fail to explicitly model the influence of the mobile base on manipulator control, which easily leads to error accumulation under high degrees of freedom. On the other hand, they treat the entire mobile manipulation process with the same visual observation modality (e.g., either all 2D or all 3D), overlooking the distinct multimodal perception requirements at different stages during mobile manipulation. To address this, we propose the Adaptive Coordination Diffusion Transformer (AC-DiT), which enhances mobile base and manipulator coordination for end-to-end mobile manipulation. First, since the motion of the mobile base directly influences the manipulator's actions, we introduce a mobility-to-body conditioning mechanism that guides the model to first extract base motion representations, which are then used as context prior for predicting whole-body actions. This enables whole-body control that accounts for the potential impact of the mobile base's motion. Second, to meet the perception requirements at different stages of mobile manipulation, we design a perception-aware multimodal conditioning strategy that dynamically adjusts the fusion weights between various 2D visual images and 3D point clouds, yielding visual features tailored to the current perceptual needs. This allows the model to, for example, adaptively rely more on 2D inputs when semantic information is crucial for action prediction, while placing greater emphasis on 3D geometric information when precise spatial understanding is required. We validate AC-DiT through extensive experiments on both simulated and real-world mobile manipulation tasks.
- Abstract(参考訳): 近年,家庭作業における言語調和型ロボット制御の実現に向けて,移動操作が注目されている。
しかし、既存の手法は、主に2つの制限があるため、モバイルベースとマニピュレータを調整する際の課題に直面している。
一方、移動体ベースがマニピュレータ制御に与える影響を明示的にモデル化することはできず、高い自由度で容易にエラーの蓄積につながる。
一方、モバイル操作のプロセス全体(例えば、すべての2Dまたは全3D)は、モバイル操作の異なる段階における異なるマルチモーダル認識要件を見越して、同じ視覚的モダリティ(例えば、すべての2Dまたは全3D)で処理する。
そこで本研究では,モバイルベースとマニピュレータの協調を両立させる適応座標拡散変換器 (AC-DiT) を提案する。
まず,移動体の動きがマニピュレータの動作に直接影響を及ぼすので,まずモデルからベース動作表現を抽出するモビリティ・ツー・ボディの条件付け機構を導入する。
これにより、移動体の運動の潜在的影響を考慮に入れた全身制御が可能となる。
第2に,移動操作の異なる段階における知覚要求を満たすために,様々な2次元画像と3次元点雲との融合重みを動的に調整し,現在の知覚的ニーズに合わせて視覚的特徴を与えるマルチモーダルコンディショニング戦略を設計する。
これにより、例えば、セマンティック情報が行動予測に不可欠である場合に2次元入力に適応的に依存し、正確な空間的理解が必要なときに3次元幾何学的情報に重きを置くことができる。
我々は,シミュレーションおよび実世界のモバイル操作タスクの広範な実験を通じて,AC-DiTを検証する。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Quantifying the Impact of Motion on 2D Gaze Estimation in Real-World Mobile Interactions [18.294511216241805]
本稿では,ユーザの移動度と行動がモバイル視線追跡精度に与える影響を実証的に示す。
頭部距離、頭部ポーズ、装置の向きは、正確性に影響を与える重要な要因である。
発見は、より堅牢で適応的な視線追跡システムの必要性を強調している。
論文 参考訳(メタデータ) (2025-02-14T21:44:52Z) - Self-Supervised Learning of Grasping Arbitrary Objects On-the-Move [8.445514342786579]
本研究では3つの完全畳み込みニューラルネットワーク(FCN)モデルを導入し,視覚入力から静的グリッププリミティブ,動的グリッププリミティブ,残留移動速度誤差を予測する。
提案手法は高い把握精度とピック・アンド・プレイス効率を実現した。
論文 参考訳(メタデータ) (2024-11-15T02:59:16Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Consolidating Kinematic Models to Promote Coordinated Mobile
Manipulations [96.03270112422514]
我々は,移動体ベース,アーム,移動体操作で操作する物体の運動学を統合する仮想キネマティックチェイン(VKC)を構築した。
移動操作タスクは、構築されたVKCの状態を変更して表現され、移動計画問題に変換することができる。
論文 参考訳(メタデータ) (2021-08-03T02:59:41Z) - Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile
Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。
第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。
第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文 参考訳(メタデータ) (2021-03-18T21:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。