論文の概要: PIMbot: Policy and Incentive Manipulation for Multi-Robot Reinforcement
Learning in Social Dilemmas
- arxiv url: http://arxiv.org/abs/2307.15944v1
- Date: Sat, 29 Jul 2023 09:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:35:04.519183
- Title: PIMbot: Policy and Incentive Manipulation for Multi-Robot Reinforcement
Learning in Social Dilemmas
- Title(参考訳): PIMbot:社会ジレンマにおけるマルチロボット強化学習のためのポリシーとインセンティブ操作
- Authors: Shahab Nikkhoo, Zexin Li, Aritra Samanta, Yufei Li and Cong Liu
- Abstract要約: 本稿では,マルチロボットコラボレーションにおける報酬関数を操作するための新しいアプローチ,すなわちPIMbotを提案する。
提案するPIMbot機構を利用することで,ロボットが社会的ジレンマ環境を効果的に操作することができる。
我々の研究は、ロボット間通信をどのように操作するかについての洞察を与え、様々なロボットアプリケーションに影響を及ぼす。
- 参考スコア(独自算出の注目度): 4.566617428324801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has demonstrated the potential of reinforcement learning (RL)
in enabling effective multi-robot collaboration, particularly in social
dilemmas where robots face a trade-off between self-interests and collective
benefits. However, environmental factors such as miscommunication and
adversarial robots can impact cooperation, making it crucial to explore how
multi-robot communication can be manipulated to achieve different outcomes.
This paper presents a novel approach, namely PIMbot, to manipulating the reward
function in multi-robot collaboration through two distinct forms of
manipulation: policy and incentive manipulation. Our work introduces a new
angle for manipulation in recent multi-agent RL social dilemmas that utilize a
unique reward function for incentivization. By utilizing our proposed PIMbot
mechanisms, a robot is able to manipulate the social dilemma environment
effectively. PIMbot has the potential for both positive and negative impacts on
the task outcome, where positive impacts lead to faster convergence to the
global optimum and maximized rewards for any chosen robot. Conversely, negative
impacts can have a detrimental effect on the overall task performance. We
present comprehensive experimental results that demonstrate the effectiveness
of our proposed methods in the Gazebo-simulated multi-robot environment. Our
work provides insights into how inter-robot communication can be manipulated
and has implications for various robotic applications. %, including robotics,
transportation, and manufacturing.
- Abstract(参考訳): 近年の研究では、ロボットが自己利益と集団利益のトレードオフに直面している社会ジレンマにおいて、効果的なマルチロボット協調を可能にするための強化学習(RL)の可能性を示している。
しかし, コミュニケーションミスや対人ロボットなどの環境要因が協調に影響を及ぼす可能性があり, 異なる結果を達成するために, マルチロボットコミュニケーションをどのように操作するかを検討することが重要である。
本稿では,多ロボット協調における報酬関数の操作方法として,ポリシーとインセンティブ操作という2つの異なる形態の操作方法を提案する。
本研究は,近年のマルチエージェントRLソーシャルジレンマにおいて,インセンティブ化にユニークな報酬関数を利用する新たな操作方法を提案する。
提案するPIMbot機構を利用することで,ロボットが社会的ジレンマ環境を効果的に操作することができる。
pimbotは、タスク結果に対するポジティブな影響とネガティブな影響の両方をもたらす可能性があり、ポジティブな影響は、選択されたロボットに対して、グローバルに最適かつ最大化された報酬への収束を早める。
逆に、負の影響はタスク全体のパフォーマンスに悪影響を及ぼす可能性がある。
本稿では,ガゼボ模擬マルチロボット環境における提案手法の有効性を示す総合的な実験結果を示す。
私たちの研究は、ロボット間通信の操作方法に関する洞察を提供し、様々なロボットアプリケーションに影響を与えます。
8%, ロボット工学, 輸送, 製造業を含む。
関連論文リスト
- Human-Robot Mutual Learning through Affective-Linguistic Interaction and Differential Outcomes Training [Pre-Print] [0.3811184252495269]
本研究では,感情言語コミュニケーションが人間ロボットの文脈における相互学習にどのように影響するかを検証する。
児童介護のダイナミックスからインスピレーションを得て、私たちの人間とロボットのインタラクションのセットアップは、内部的、ホメオスタティックに制御されたニーズのコミュニケーション方法を学ぶための(シミュレートされた)ロボットで構成されています。
論文 参考訳(メタデータ) (2024-07-01T13:35:08Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Doing Right by Not Doing Wrong in Human-Robot Collaboration [8.078753289996417]
本研究では,ポジティブ行動の再現ではなく,ネガティブ行動の回避によって,公平で社会的行動を学ぶための新しいアプローチを提案する。
本研究では,ロボット操作における社会性の導入の重要性と,人間とロボットの相互作用における公平性を検討することの重要性を強調した。
論文 参考訳(メタデータ) (2022-02-05T23:05:10Z) - Spatial Computing and Intuitive Interaction: Bringing Mixed Reality and
Robotics Together [68.44697646919515]
本稿では,空間コンピューティングを応用し,新しいロボットのユースケースを実現するためのロボットシステムについて述べる。
空間コンピューティングとエゴセントリックな感覚を複合現実感デバイスに組み合わせることで、人間の行動をキャプチャして理解し、それらを空間的な意味を持つ行動に変換することができる。
論文 参考訳(メタデータ) (2022-02-03T10:04:26Z) - A MultiModal Social Robot Toward Personalized Emotion Interaction [1.2183405753834562]
本研究では,ロボットインタラクションポリシーを強化するために,強化学習を伴うマルチモーダルヒューマンロボットインタラクション(HRI)フレームワークを実証する。
目標は、ロボットがより自然で魅力的なHRIフレームワークを作れるように、このフレームワークを社会シナリオに適用することだ。
論文 参考訳(メタデータ) (2021-10-08T00:35:44Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。
本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文 参考訳(メタデータ) (2021-08-13T03:14:43Z) - Show Me What You Can Do: Capability Calibration on Reachable Workspace
for Human-Robot Collaboration [83.4081612443128]
本稿では,REMPを用いた短時間キャリブレーションにより,ロボットが到達できると考える非専門家と地道とのギャップを効果的に埋めることができることを示す。
この校正手順は,ユーザ認識の向上だけでなく,人間とロボットのコラボレーションの効率化にも寄与することを示す。
論文 参考訳(メタデータ) (2021-03-06T09:14:30Z) - Supportive Actions for Manipulation in Human-Robot Coworker Teams [15.978389978586414]
我々は、将来の干渉を減らすことで相互作用を支援する行動を、支援ロボット行動と表現する。
1)タスク指向: ロボットは自身のタスク目標をさらに進めるためにのみ行動を取るし、(2)支援的: ロボットはタスク指向のタスクよりも支援的行動を好む。
シミュレーション実験では, 人体モデルを用いて, エージェント間の干渉を軽減し, 作業の完了に要する時間が長いことを明らかにした。
論文 参考訳(メタデータ) (2020-05-02T09:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。