論文の概要: InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2602.23024v1
- Date: Thu, 26 Feb 2026 14:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.740572
- Title: InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation
- Title(参考訳): InCoM: 全体移動操作におけるインテント駆動知覚と構造化コーディネーション
- Authors: Jiahao Liu, Cui Wenbo, Haoran Li, Dongbin Zhao,
- Abstract要約: 全身移動操作のための意図駆動型認識と構造化協調フレームワークInCoMを提案する。
InCoMは、動的にマルチスケールの知覚的特徴を重み付けする潜在動作意図を推論し、知覚的注意の段階適応的アロケーションを可能にする。
InCoMは3つのManiSkill-HABシナリオの最先端手法を28.2%、26.1%、23.6%で上回ります。
- 参考スコア(独自算出の注目度): 36.51938252277959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body mobile manipulation is a fundamental capability for general-purpose robotic agents, requiring both coordinated control of the mobile base and manipulator and robust perception under dynamically changing viewpoints. However, existing approaches face two key challenges: strong coupling between base and arm actions complicates whole-body control optimization, and perceptual attention is often poorly allocated as viewpoints shift during mobile manipulation. We propose InCoM, an intent-driven perception and structured coordination framework for whole-body mobile manipulation. InCoM infers latent motion intent to dynamically reweight multi-scale perceptual features, enabling stage-adaptive allocation of perceptual attention. To support robust cross-modal perception, InCoM further incorporates a geometric-semantic structured alignment mechanism that enhances multimodal correspondence. On the control side, we design a decoupled coordinated flow matching action decoder that explicitly models coordinated base-arm action generation, alleviating optimization difficulties caused by control coupling. Without access to privileged perceptual information, InCoM outperforms state-of-the-art methods on three ManiSkill-HAB scenarios by 28.2%, 26.1%, and 23.6% in success rate, demonstrating strong effectiveness for whole-body mobile manipulation.
- Abstract(参考訳): 全体移動操作は汎用ロボットエージェントの基本機能であり、動体ベースとマニピュレータの協調制御と、動的に変化する視点下での堅牢な知覚の両方を必要とする。
しかし、既存のアプローチは2つの大きな課題に直面している: ベースアクションとアームアクションの強い結合は、全身制御の最適化を複雑にし、知覚的注意は、モバイル操作中の視点シフトとして、しばしば不十分に割り当てられる。
全身移動操作のための意図駆動型認識と構造化協調フレームワークInCoMを提案する。
InCoMは、動的にマルチスケールの知覚的特徴を重み付けする潜在動作意図を推論し、知覚的注意の段階適応的アロケーションを可能にする。
堅牢なクロスモーダル知覚をサポートするため、InCoMはさらに、多モーダル対応を強化する幾何学的・意味的構造的アライメント機構を取り入れている。
制御側では,制御結合に起因する最適化の難しさを軽減し,協調したベースアーム動作生成を明示的にモデル化する疎結合なフローマッチング動作デコーダを設計する。
特権的な知覚情報にアクセスせずに、InCoMは3つのManiSkill-HABシナリオにおける最先端の手法を28.2%、26.1%、23.6%の成功率で上回り、全身のモバイル操作に強い効果を示す。
関連論文リスト
- ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - ADM-DP: Adaptive Dynamic Modality Diffusion Policy through Vision-Tactile-Graph Fusion for Multi-Agent Manipulation [6.476276375428053]
協調制御のための視覚,触覚,およびグラフベース(マルチエージェントポーズ)モダリティを統合するフレームワークを提案する。
7つのマルチエージェントタスクの中で、ADM-DPは最先端のベースラインよりも12-25%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2026-02-25T06:35:19Z) - CHIP: Adaptive Compliance for Humanoid Control through Hindsight Perturbation [70.5382178207975]
hIsight Perturbation (CHIP)は、制御可能なエンドエフェクタ剛性を実現するプラグイン・アンド・プレイモジュールである。
CHIPの実装は簡単で、データ拡張も追加の報酬チューニングも必要ありません。
そこで本研究では,CHIPでトレーニングした汎用モーショントラッキングコントローラが,多種多様な操作タスクを実行できることを示す。
論文 参考訳(メタデータ) (2025-12-16T18:56:04Z) - M4Diffuser: Multi-View Diffusion Policy with Manipulability-Aware Control for Robust Mobile Manipulation [17.9979990426915]
M4Diffuserは、マルチビュー拡散ポリシーとモバイル操作のための新しいReduceed and Manipulability-aware QPコントローラを統合するハイブリッドフレームワークである。
提案手法は,スムーズな全身協調のための堅牢な性能と,目に見えないタスクへの強力な一般化を示す。
論文 参考訳(メタデータ) (2025-09-18T14:09:53Z) - AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation [31.314066269767057]
移動操作は、家庭作業において言語条件のロボット制御を可能にすることで注目を集めている。
既存の手法では、移動体ベースがマニピュレータ制御に与える影響を明示的にモデル化することができない。
本稿では,適応座標拡散変換器 (AC-DiT) を提案する。
論文 参考訳(メタデータ) (2025-07-02T17:59:54Z) - Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework [51.39847596489193]
バイオマチックなロボット操作は、ロボティクスコミュニティにおいて、新しくて重要なトピックである。
本稿では,バイマニュアル操作における異なるタスクの特徴を考察した,疎結合なインタラクションフレームワークを提案する。
我々のフレームワークは,SOTA法よりも23.5%向上し,優れた性能を実現している。
論文 参考訳(メタデータ) (2025-03-12T09:28:41Z) - DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation [78.60543357822957]
高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。
DexHandDiffは,適応的デキスタラス操作のための対話型拡散計画フレームワークである。
当社のフレームワークは, 目標適応度の高いタスクにおいて, 平均70.7%の成功率を実現し, コンタクトリッチな操作における堅牢性と柔軟性を強調した。
論文 参考訳(メタデータ) (2024-11-27T18:03:26Z) - Consolidating Kinematic Models to Promote Coordinated Mobile
Manipulations [96.03270112422514]
我々は,移動体ベース,アーム,移動体操作で操作する物体の運動学を統合する仮想キネマティックチェイン(VKC)を構築した。
移動操作タスクは、構築されたVKCの状態を変更して表現され、移動計画問題に変換することができる。
論文 参考訳(メタデータ) (2021-08-03T02:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。