論文の概要: DeReCo: Decoupling Representation and Coordination Learning for Object-Adaptive Decentralized Multi-Robot Cooperative Transport
- arxiv url: http://arxiv.org/abs/2603.08111v1
- Date: Mon, 09 Mar 2026 08:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.09144
- Title: DeReCo: Decoupling Representation and Coordination Learning for Object-Adaptive Decentralized Multi-Robot Cooperative Transport
- Title(参考訳): DeReCo: オブジェクト適応型分散多ロボット協調輸送のためのデカップリング表現とコーディネート学習
- Authors: Kazuki Shibata, Ryosuke Sota, Shandil Dhiresh Bosch, Yuki Kadokawa, Tsurumine Yoshihisa, Takamitsu Matsubara,
- Abstract要約: DeReCoは、オブジェクト適応型多ロボット協調輸送のための表現と協調学習を分離する新しいフレームワークである。
実験結果から,DeReCoは3つのトレーニング対象のシミュレーションにおいてベースラインを上回り,質量や摩擦係数の異なる6つの未確認対象に一般化し,実ロボット実験において2つの未確認対象に対して優れた性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 4.030781059424759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing decentralized multi-robot cooperative transport across objects with diverse shapes and physical properties remains a fundamental challenge. Under decentralized execution, two key challenges arise: object-dependent representation learning under partial observability and coordination learning in multi-agent reinforcement learning (MARL) under non-stationarity. A typical approach jointly optimizes object-dependent representations and coordinated policies in an end-to-end manner while randomizing object shapes and physical properties during training. However, this joint optimization tightly couples representation and coordination learning, introducing bidirectional interference: inaccurate representations under partial observability destabilize coordination learning, while non-stationarity in MARL further degrades representation learning, resulting in sample-inefficient training. To address this structural coupling, we propose DeReCo, a novel MARL framework that decouples representation and coordination learning for object-adaptive multi-robot cooperative transport, improving sample efficiency and generalization across objects and transport scenarios. DeReCo adopts a three-stage training strategy: (1) centralized coordination learning with privileged object information, (2) reconstruction of object-dependent representations from local observations, and (3) progressive removal of privileged information for decentralized execution. This decoupling mitigates interference between representation and coordination learning and enables stable and sample-efficient training. Experimental results show that DeReCo outperforms baselines in simulation on three training objects, generalizes to six unseen objects with varying masses and friction coefficients, and achieves superior performance on two unseen objects in real-robot experiments.
- Abstract(参考訳): 多様な形状と物理的性質を持つ物体を横断する分散多ロボット協調輸送の一般化は、依然として根本的な課題である。
非定常条件下でのマルチエージェント強化学習(MARL)における部分観測可能性下でのオブジェクト依存表現学習と協調学習の2つの主要な課題が生じる。
典型的なアプローチは、トレーニング中にオブジェクトの形状や物理的特性をランダム化しながら、オブジェクト依存表現と協調されたポリシーをエンドツーエンドで共同で最適化する。
しかし、この共同最適化は、表現と協調学習を密結合させ、双方向の干渉を導入する: 部分的可観測性の下で不正確な表現は協調学習を不安定にするが、MARLの非定常性は表現学習をさらに劣化させ、サンプル非効率な訓練をもたらす。
この構造的結合に対処するために、オブジェクト適応型多ロボット協調輸送における表現と協調学習を分離し、サンプル効率を改善し、オブジェクトと輸送シナリオをまたいだ一般化を行う新しいMARLフレームワークであるDeReCoを提案する。
DeReCoは,(1)特権オブジェクト情報による集中的協調学習,(2)局所的な観察からオブジェクト依存表現の再構築,(3)非中央集権的実行のための特権情報の段階的除去という3段階の学習戦略を採用している。
このデカップリングは、表現と協調学習の干渉を緩和し、安定したサンプル効率のトレーニングを可能にする。
実験結果から,DeReCoは3つのトレーニング対象のシミュレーションにおいてベースラインを上回り,質量や摩擦係数の異なる6つの未確認対象に一般化し,実ロボット実験において2つの未確認対象に対して優れた性能を発揮することがわかった。
関連論文リスト
- Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings [10.36125908359289]
モデルに基づくマルチエージェント強化学習フレームワークを提案する。
我々は変分自動エンコーダで訓練された世界モデルを設計し、状態-作用学習埋め込みを用いてモデルを増強する。
想像された軌道とSALEに基づく行動値とを結合することにより、エージェントは彼らの選択が集団的な結果にどのように影響するかをより深く理解する。
論文 参考訳(メタデータ) (2026-02-13T01:57:21Z) - DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning [63.65467569295623]
本稿では,これらの課題に対処するための差別的表現学習(DRL)フレームワークを提案する。
逐次学習を効果的かつ効率的に行うために、DRLのネットワークはPTM上に構築される。
我々のDRLは、CIL時代を通して、他の最先端の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-14T03:19:15Z) - CoCoL: A Communication Efficient Decentralized Collaborative Method for Multi-Robot Systems [12.818331958107429]
異種局所データセットを持つマルチロボットシステムに適したコミュニケーション効率の良い分散協調学習手法を提案する。
CoCoLは、ロボットの目的関数間の類似性を捉えることにより、ニュートン型更新を近似して顕著な通信効率を達成する。
論文 参考訳(メタデータ) (2025-08-28T15:25:48Z) - CoDiEmb: A Collaborative yet Distinct Framework for Unified Representation Learning in Information Retrieval and Semantic Textual Similarity [20.349897901019574]
統合されたテキスト埋め込みをトレーニングするための統合フレームワークであるCoDiEmbを紹介する。
CoDiEmbは、効果的な共同最適化のための3つの重要なイノベーションを統合している。
我々の結果と分析は、このフレームワークがクロスタスクトレードオフを緩和していることを示している。
論文 参考訳(メタデータ) (2025-08-15T12:46:35Z) - Inter3D: A Benchmark and Strong Baseline for Human-Interactive 3D Object Reconstruction [34.89563280020313]
我々は,人間の相互作用対象の新たな状態合成のための新しいベンチマークとアプローチであるInter3Dを提案する。
提案したベンチマークで広範な実験を行い,課題とアプローチの優位性を示す。
論文 参考訳(メタデータ) (2025-02-19T10:00:00Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。