論文の概要: Multi-Modal Manipulation via Multi-Modal Policy Consensus
- arxiv url: http://arxiv.org/abs/2509.23468v1
- Date: Sat, 27 Sep 2025 19:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.245335
- Title: Multi-Modal Manipulation via Multi-Modal Policy Consensus
- Title(参考訳): マルチモーダルポリシー合意によるマルチモーダルマニピュレーション
- Authors: Haonan Chen, Jiaming Xu, Hongyu Chen, Kaiwen Hong, Binghao Huang, Chaoqi Liu, Jiayuan Mao, Yunzhu Li, Yilun Du, Katherine Driggs-Campbell,
- Abstract要約: 本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。
提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。
我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
- 参考スコア(独自算出の注目度): 62.49978559936122
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effectively integrating diverse sensory modalities is crucial for robotic manipulation. However, the typical approach of feature concatenation is often suboptimal: dominant modalities such as vision can overwhelm sparse but critical signals like touch in contact-rich tasks, and monolithic architectures cannot flexibly incorporate new or missing modalities without retraining. Our method factorizes the policy into a set of diffusion models, each specialized for a single representation (e.g., vision or touch), and employs a router network that learns consensus weights to adaptively combine their contributions, enabling incremental of new representations. We evaluate our approach on simulated manipulation tasks in {RLBench}, as well as real-world tasks such as occluded object picking, in-hand spoon reorientation, and puzzle insertion, where it significantly outperforms feature-concatenation baselines on scenarios requiring multimodal reasoning. Our policy further demonstrates robustness to physical perturbations and sensor corruption. We further conduct perturbation-based importance analysis, which reveals adaptive shifts between modalities.
- Abstract(参考訳): 多様な感覚モダリティを効果的に統合することは、ロボット操作にとって不可欠である。
しかし、特徴連結の典型的なアプローチは、しばしば準最適である: 視覚のような支配的なモダリティは、接触に富んだタスクへのタッチのような、疎外だが重要なシグナルを圧倒し、モノリシックなアーキテクチャは、再訓練なしに、柔軟に新しいモダリティや欠落したモダリティを組み込むことはできない。
提案手法では, 一つの表現(例えば, 視覚やタッチ)に特化して, コンセンサス重みを学習してコンセンサスを適応的に組み合わせ, 新たな表現のインクリメンタル化を可能にするルータネットワークを用いる。
In-hand Spoon Reorientation, puzzle insertといった実世界のタスクと同様に、RLBench}におけるシミュレーション操作タスクに対する我々のアプローチを評価し、マルチモーダル推論を必要とするシナリオにおいて特徴連結ベースラインを著しく上回っている。
我々の政策は、物理的摂動とセンサの腐敗に対する堅牢性をさらに証明している。
さらに摂動に基づく重要度分析を行い、モダリティ間の適応的なシフトを明らかにする。
関連論文リスト
- ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation [46.06124092071133]
ロボット操作のための新しい動き指向キーポイント(CoMOK)の定式化を提案する。
私たちの定式化は、エンドツーエンドでトレーニング可能なニューラルポリシーのアクション表現として使用されます。
論文 参考訳(メタデータ) (2025-09-25T07:29:07Z) - HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction [11.30785902722196]
HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-15T09:19:41Z) - Deformable Cluster Manipulation via Whole-Arm Policy Learning [27.54191389134963]
本稿では,3次元点雲とプロプリセプティブタッチインジケータという2つのモードを統合したモデルフリーポリシーの学習フレームワークを提案する。
我々の強化学習フレームワークは,カーネル平均埋め込みによる分散状態表現を利用して,学習効率の向上とリアルタイム推論を実現する。
我々は、このフレームワークを電力線クリアランスシナリオに展開し、エージェントが複数のアームリンクを利用して非閉塞性を実現する創造的戦略を生成することを観察する。
論文 参考訳(メタデータ) (2025-07-22T23:58:30Z) - Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - SFusion: Self-attention based N-to-One Multimodal Fusion Block [6.059397373352718]
本稿では,SFusionと呼ばれる自己注意型核融合ブロックを提案する。
使用可能なモダリティを、合成やゼロパディングの欠如なしに融合することを学ぶ。
本研究では,SFusionを異なるバックボーンネットワークに適用し,ヒトの活動認識と脳腫瘍のセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-08-26T16:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。