論文の概要: CoLF: Learning Consistent Leader-Follower Policies for Vision-Language-Guided Multi-Robot Cooperative Transport
- arxiv url: http://arxiv.org/abs/2602.07776v1
- Date: Sun, 08 Feb 2026 02:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.258662
- Title: CoLF: Learning Consistent Leader-Follower Policies for Vision-Language-Guided Multi-Robot Cooperative Transport
- Title(参考訳): CoLF: ビジョンランゲージ誘導多ロボット協調輸送のための一貫性のあるリーダ・フォロワー政策
- Authors: Joachim Yann Despature, Kazuki Shibata, Takamitsu Matsubara,
- Abstract要約: 視覚言語誘導型多ロボット協調輸送に対処し、各ロボットは搭載カメラの観察から自然言語の指示を受ける。
この分散環境における重要な課題は、視点の違いと言語あいまいさが矛盾する解釈をもたらすロボット間の知覚的ミスアライメントである。
我々は,安定したリーダ・フォロワーの役割分化のための多エージェント強化学習フレームワークであるConsistent Leader-Follower (CoLF)を提案する。
- 参考スコア(独自算出の注目度): 4.619525549930793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we address vision-language-guided multi-robot cooperative transport, where each robot grounds natural-language instructions from onboard camera observations. A key challenge in this decentralized setting is perceptual misalignment across robots, where viewpoint differences and language ambiguity can yield inconsistent interpretations and degrade cooperative transport. To mitigate this problem, we adopt a dependent leader-follower design, where one robot serves as the leader and the other as the follower. Although such a leader-follower structure appears straightforward, learning with independent and symmetric agents often yields symmetric or unstable behaviors without explicit inductive biases. To address this challenge, we propose Consistent Leader-Follower (CoLF), a multi-agent reinforcement learning (MARL) framework for stable leader-follower role differentiation. CoLF consists of two key components: (1) an asymmetric policy design that induces leader-follower role differentiation, and (2) a mutual-information-based training objective that maximizes a variational lower bound, encouraging the follower to predict the leader's action from its local observation. The leader and follower policies are jointly optimized under the centralized training and decentralized execution (CTDE) framework to balance task execution and consistent cooperative behaviors. We validate CoLF in both simulation and real-robot experiments using two quadruped robots. The demonstration video is available at https://sites.google.com/view/colf/.
- Abstract(参考訳): 本研究では,ロボットが車載カメラの観察から自然言語の指示を受ける,視覚言語誘導型多ロボット協調輸送について検討する。
この分散化における重要な課題は、視点の違いと言語あいまいさが一貫性のない解釈をもたらし、協調輸送を低下させるロボット間の知覚的不整合である。
この問題を軽減するため、我々は、一方のロボットがリーダーとして、もう一方のロボットが従者として機能する、従属的なリーダーフォロワ設計を採用する。
このようなリーダー・フォロワー構造は単純に見えるが、独立エージェントと対称エージェントの学習は、しばしば明示的な帰納バイアスなしで対称的あるいは不安定な振る舞いをもたらす。
この課題に対処するために、安定したリーダー・フォロワーの役割分化のためのマルチエージェント強化学習(MARL)フレームワークであるCoLF(Consistent Leader-Follower)を提案する。
CoLFは,(1)リーダーとフォロワーの役割の分化を誘導する非対称な政策設計,(2)変化の少ない境界を最大化し,その局所的な観察からリーダの行動を予測するための相互情報に基づくトレーニング目標,の2つの要素から構成される。
リーダとフォロワーのポリシは、タスク実行と一貫した協調動作のバランスをとるために、集中的なトレーニングと分散実行(CTDE)フレームワークの下で共同で最適化されます。
2つの四足歩行ロボットを用いたシミュレーションおよび実ロボット実験において,CoLFの有効性を検証した。
デモビデオはhttps://sites.google.com/view/colf/.comで公開されている。
関連論文リスト
- Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport [36.304887250687536]
本稿では,3層階層構造である認知制御(C2C)について述べる。
協調操作タスクの実験は、単一エージェントとエンドツーエンドのベースラインよりも成功と堅牢性を示す。
論文 参考訳(メタデータ) (2026-03-04T06:24:55Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Adapt On-the-Go: Behavior Modulation for Single-Life Robot Deployment [88.06408322210025]
展開中のシナリオにオンザフライで適応する問題について検討する。
ROAM(RObust Autonomous Modulation)は,事前学習した行動の知覚値に基づくメカニズムを提案する。
ROAMによりロボットはシミュレーションと実Go1の四足歩行の両方の動的変化に迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-11-02T08:22:28Z) - Multi-Agent Deep Reinforcement Learning for Cooperative and Competitive
Autonomous Vehicles using AutoDRIVE Ecosystem [1.1893676124374688]
我々は、ニジェールとF1TENTHの物理的に正確でグラフィカルなデジタル双対を開発するために、AutoDRIVE Ecosystemを導入する。
まず,複数エージェントの学習環境だけでなく,限られた状態情報を相互に共有する一組の協調車両(Nigel)を用いた交差点問題について検討する。
次に、異なる車両群(F1TENTH)を用いて、個別のポリシーアプローチを用いたマルチエージェント学習環境において、対向的なヘッドツーヘッド自律レース問題を調査する。
論文 参考訳(メタデータ) (2023-09-18T02:43:59Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Stackelberg Games for Learning Emergent Behaviors During Competitive
Autocurricula [35.88217121803472]
本稿では,新たなゲーム理論アルゴリズムであるStackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG)を提案する。
マルチプレイヤーのMARL問題をスタックルバーグゲームとして定式化し、1人のプレイヤーをリーダーとして、もう1人のプレイヤーを従者として、階層的な相互作用構造においてリーダーが有利である。
リーダーの利点を活用することで、ST-MADDPGは共進化プロセスの品質を改善し、目に見えない強力な相手に対してさえうまく機能するより洗練された複雑な戦略をもたらす。
論文 参考訳(メタデータ) (2023-05-04T19:27:35Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Distributed Differentiable Dynamic Game for Multi-robot Coordination [5.835070654168429]
我々は,ロボットの動作が,他者の行動にも依存する自身のダイナミクスと目的によって決定される動的ゲームとして,マルチロボット協調を定式化する。
本稿では,マルチロボット協調における前方および逆問題の効率よく解決できる分散微分可能動的ゲーム(D3G)フレームワークを開発する。
論文 参考訳(メタデータ) (2022-07-18T19:06:18Z) - Interactive Dynamic Walking: Learning Gait Switching Policies with
Generalization Guarantees [8.554761233491236]
歩行二足歩行ロボットを、身体的相互作用を必要とするタスクに携わりながら、先導的な同僚に従うことの問題点を考察する。
当社のアプローチは, 監督官が管理する, ダイナミック・ムーブメント・プリミティブの家族間の切り替えに依存している。
目的の軌道が明確でない先進的協調者に動的に歩行する二足歩行の歩行を適応させるために,ニューラルネットワークスーパーバイザーを訓練することにより,我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-28T01:09:13Z) - Learning to Generalize Across Long-Horizon Tasks from Human
Demonstrations [52.696205074092006]
Generalization Through Imitation (GTI) は、2段階のオフライン模倣学習アルゴリズムである。
GTIは、状態空間の共通領域で異なるタスクの軌道を示す構造を利用する。
GTIの第1段階では,異なる実演軌跡から行動を構成する能力を持つために交差点を利用する政策を訓練する。
GTIの第2段階では、ゴール指向エージェントをトレーニングして、新しいスタートとゴールの設定を一般化する。
論文 参考訳(メタデータ) (2020-03-13T02:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。