Fugu-MT 論文翻訳(概要): Learning Communication Policies for Different Follower Behaviors in a Collaborative Reference Game

論文の概要: Learning Communication Policies for Different Follower Behaviors in a Collaborative Reference Game

arxiv url: http://arxiv.org/abs/2402.04824v1
Date: Wed, 7 Feb 2024 13:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 15:28:42.648095
Title: Learning Communication Policies for Different Follower Behaviors in a Collaborative Reference Game
Title（参考訳）: 協調型参照ゲームにおける追従行動の異なるコミュニケーションポリシーの学習
Authors: Philipp Sadler, Sherzod Hakimov and David Schlangen
Abstract要約: 協調参照ゲームにおいて、仮定されたパートナー行動に対するニューラルネットワークエージェントの適応性を評価する。以上の結果から, この新規成分は, より冗長なコミュニケーション戦略につながることが示唆された。
参考スコア（独自算出の注目度）: 22.28337771947361
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Albrecht and Stone (2018) state that modeling of changing behaviors remains an open problem "due to the essentially unconstrained nature of what other agents may do". In this work we evaluate the adaptability of neural artificial agents towards assumed partner behaviors in a collaborative reference game. In this game success is achieved when a knowledgeable Guide can verbally lead a Follower to the selection of a specific puzzle piece among several distractors. We frame this language grounding and coordination task as a reinforcement learning problem and measure to which extent a common reinforcement training algorithm (PPO) is able to produce neural agents (the Guides) that perform well with various heuristic Follower behaviors that vary along the dimensions of confidence and autonomy. We experiment with a learning signal that in addition to the goal condition also respects an assumed communicative effort. Our results indicate that this novel ingredient leads to communicative strategies that are less verbose (staying silent in some of the steps) and that with respect to that the Guide's strategies indeed adapt to the partner's level of confidence and autonomy.
Abstract（参考訳）: Albrecht and Stone (2018) は、変化する行動のモデリングは「他のエージェントができることの本質的に制約のない性質のために」未解決の問題のままであると述べている。本研究は,協調参照ゲームにおけるパートナー行動に対するニューラルネットワークエージェントの適応性を評価する。このゲームの成功は、知識のあるガイドが、複数の邪魔者の中から特定のパズル片の選択に言語的にフォロワーを導くことができる場合に達成される。我々は,この言語基底化と協調のタスクを強化学習問題として捉え,信頼度や自律性の次元に応じて異なる様々なヒューリスティックな従者行動とうまく連携するニューラルエージェント(ガイド)を,共通強化訓練アルゴリズム(ppo)が作成できる程度を測定する。目標条件に加えて,想定されたコミュニケーション努力も尊重する学習信号を用いて実験を行った。以上の結果から,この新成分は冗長性の低いコミュニケーション戦略(一部のステップでは沈黙)につながり,また,ガイドの戦略がパートナーの信頼と自律性レベルに実際に適合することを示す。

関連論文リスト

Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文参考訳（メタデータ） (2025-05-09T11:48:36Z)
Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文参考訳（メタデータ） (2024-10-24T10:48:42Z)
Learning to Coordinate without Communication under Incomplete Information [39.106914895158035]
自律的なエージェントが、パートナーの行動を解釈することで、どのように協力するかを示す。 Gnomes at Nightというテストベッドの実験結果から、学習したコミュニケーションの協調戦略が成功率を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-09-19T01:41:41Z)
AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文参考訳（メタデータ） (2024-03-19T15:41:39Z)
GOMA: Proactive Embodied Cooperative Communication via Goal-Oriented Mental Alignment [72.96949760114575]
我々は、ゴール指向メンタルアライメント(GOMA)という新しい協調コミュニケーションフレームワークを提案する。 GOMAは、目標に関連のあるエージェントの精神状態のミスアライメントを最小限に抑える計画問題として、言語コミュニケーションを定式化している。我々は,Overcooked(マルチプレイヤーゲーム)とVirtualHome(家庭用シミュレータ)の2つの挑戦環境において,強いベースラインに対するアプローチを評価する。
論文参考訳（メタデータ） (2024-03-17T03:52:52Z)
Learning Intuitive Policies Using Action Features [7.260481131198059]
ネットワークアーキテクチャが意味的関係を利用する学習アルゴリズムの妥当性に与える影響について検討する。観察と行動の卓越した表現を共同で処理する注意に基づくアーキテクチャは、直感的なポリシーを学ぶ上でより良い帰納的バイアスをもたらす。
論文参考訳（メタデータ） (2022-01-29T20:54:52Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。 Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文参考訳（メタデータ） (2022-01-05T20:54:10Z)
Curriculum-Driven Multi-Agent Learning and the Role of Implicit Communication in Teamwork [24.92668968807012]
難解なマルチエージェントコーディネーションタスクを解決するためのカリキュラム駆動型学習戦略を提案する。我々は、創発的な暗黙のコミュニケーションが、優れた調整レベルを実現する上で大きな役割を果たすと主張している。
論文参考訳（メタデータ） (2021-06-21T14:54:07Z)
Connecting Context-specific Adaptation in Humans to Meta-learning [23.923548278086383]
文脈条件付きメタ学習が認知タスクにおいて人間の行動をどのように捉えるかを示す。我々の研究は、メタラーニングをタスク情報で導くことは、複雑で人間らしい振る舞いを捉えることができることを示した。
論文参考訳（メタデータ） (2020-11-27T15:31:39Z)
Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文参考訳（メタデータ） (2020-10-27T13:17:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。