論文の概要: Learning Communication Policies for Different Follower Behaviors in a
Collaborative Reference Game
- arxiv url: http://arxiv.org/abs/2402.04824v1
- Date: Wed, 7 Feb 2024 13:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:28:42.648095
- Title: Learning Communication Policies for Different Follower Behaviors in a
Collaborative Reference Game
- Title(参考訳): 協調型参照ゲームにおける追従行動の異なるコミュニケーションポリシーの学習
- Authors: Philipp Sadler, Sherzod Hakimov and David Schlangen
- Abstract要約: 協調参照ゲームにおいて、仮定されたパートナー行動に対するニューラルネットワークエージェントの適応性を評価する。
以上の結果から, この新規成分は, より冗長なコミュニケーション戦略につながることが示唆された。
- 参考スコア(独自算出の注目度): 22.28337771947361
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Albrecht and Stone (2018) state that modeling of changing behaviors remains
an open problem "due to the essentially unconstrained nature of what other
agents may do". In this work we evaluate the adaptability of neural artificial
agents towards assumed partner behaviors in a collaborative reference game. In
this game success is achieved when a knowledgeable Guide can verbally lead a
Follower to the selection of a specific puzzle piece among several distractors.
We frame this language grounding and coordination task as a reinforcement
learning problem and measure to which extent a common reinforcement training
algorithm (PPO) is able to produce neural agents (the Guides) that perform well
with various heuristic Follower behaviors that vary along the dimensions of
confidence and autonomy. We experiment with a learning signal that in addition
to the goal condition also respects an assumed communicative effort. Our
results indicate that this novel ingredient leads to communicative strategies
that are less verbose (staying silent in some of the steps) and that with
respect to that the Guide's strategies indeed adapt to the partner's level of
confidence and autonomy.
- Abstract(参考訳): Albrecht and Stone (2018) は、変化する行動のモデリングは「他のエージェントができることの本質的に制約のない性質のために」未解決の問題のままであると述べている。
本研究は,協調参照ゲームにおけるパートナー行動に対するニューラルネットワークエージェントの適応性を評価する。
このゲームの成功は、知識のあるガイドが、複数の邪魔者の中から特定のパズル片の選択に言語的にフォロワーを導くことができる場合に達成される。
我々は,この言語基底化と協調のタスクを強化学習問題として捉え,信頼度や自律性の次元に応じて異なる様々なヒューリスティックな従者行動とうまく連携するニューラルエージェント(ガイド)を,共通強化訓練アルゴリズム(ppo)が作成できる程度を測定する。
目標条件に加えて,想定されたコミュニケーション努力も尊重する学習信号を用いて実験を行った。
以上の結果から,この新成分は冗長性の低いコミュニケーション戦略(一部のステップでは沈黙)につながり,また,ガイドの戦略がパートナーの信頼と自律性レベルに実際に適合することを示す。
関連論文リスト
- Progressively Efficient Learning [58.6490456517954]
我々はCEIL(Communication-Efficient Interactive Learning)という新しい学習フレームワークを開発した。
CEILは、学習者と教師がより抽象的な意図を交換することで効率的にコミュニケーションする人間のようなパターンの出現につながる。
CEILで訓練されたエージェントは、新しいタスクを素早く習得し、非階層的で階層的な模倣学習を、絶対的な成功率で最大50%、20%上回った。
論文 参考訳(メタデータ) (2023-10-13T07:52:04Z) - Inferring the Goals of Communicating Agents from Actions and
Instructions [47.5816320484482]
本稿では,あるエージェント,プリンシパルが,その共有計画に関する自然言語指示を他のエージェント,アシスタントに伝達できるような協力チームのモデルを提案する。
3人目のオブザーバが、アクションや指示からマルチモーダルな逆計画を通じて、チームの目標を推測する方法を示します。
我々は,マルチエージェントグリッドワールドにおける人間の目標推定と比較し,モデルの推定が人間の判断と密接に相関していることを見出した。
論文 参考訳(メタデータ) (2023-06-28T13:43:46Z) - Explaining Agent's Decision-making in a Hierarchical Reinforcement
Learning Scenario [0.6643086804649938]
強化学習(Reinforcement learning)は、行動心理学に基づく機械学習手法である。
本研究では,サブタスクからなる階層環境において,メモリベースで説明可能な強化学習手法を利用する。
論文 参考訳(メタデータ) (2022-12-14T01:18:45Z) - The Frost Hollow Experiments: Pavlovian Signalling as a Path to
Coordination and Communication Between Agents [7.980685978549764]
本稿では,パブロフ信号の多面的研究に貢献する。
固定的な信号処理パラダイムと完全適応型通信学習の自然な橋渡しとしてパブロヴィアン信号処理を確立した。
本研究は, 強化学習エージェント間の連続的なコミュニケーション学習に向けた実践的, 建設的経路を示唆するものである。
論文 参考訳(メタデータ) (2022-03-17T17:49:45Z) - Learning Intuitive Policies Using Action Features [7.260481131198059]
ネットワークアーキテクチャが意味的関係を利用する学習アルゴリズムの妥当性に与える影響について検討する。
観察と行動の卓越した表現を共同で処理する注意に基づくアーキテクチャは、直感的なポリシーを学ぶ上でより良い帰納的バイアスをもたらす。
論文 参考訳(メタデータ) (2022-01-29T20:54:52Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。
本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。
Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文 参考訳(メタデータ) (2022-01-05T20:54:10Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - Curriculum-Driven Multi-Agent Learning and the Role of Implicit
Communication in Teamwork [24.92668968807012]
難解なマルチエージェントコーディネーションタスクを解決するためのカリキュラム駆動型学習戦略を提案する。
我々は、創発的な暗黙のコミュニケーションが、優れた調整レベルを実現する上で大きな役割を果たすと主張している。
論文 参考訳(メタデータ) (2021-06-21T14:54:07Z) - Connecting Context-specific Adaptation in Humans to Meta-learning [23.923548278086383]
文脈条件付きメタ学習が認知タスクにおいて人間の行動をどのように捉えるかを示す。
我々の研究は、メタラーニングをタスク情報で導くことは、複雑で人間らしい振る舞いを捉えることができることを示した。
論文 参考訳(メタデータ) (2020-11-27T15:31:39Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。