Fugu-MT 論文翻訳(概要): Self-play for Data Efficient Language Acquisition

論文の概要: Self-play for Data Efficient Language Acquisition

arxiv url: http://arxiv.org/abs/2010.04872v1
Date: Sat, 10 Oct 2020 02:09:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-08 23:02:52.586359
Title: Self-play for Data Efficient Language Acquisition
Title（参考訳）: データ効率の良い言語習得のためのセルフプレイ
Authors: Charles Lovering and Ellie Pavlick
Abstract要約: 学習エージェントにおける言語習得の効率と品質を向上させるために,コミュニケーションの対称性を利用する。直接監督の代わりにセルフプレイを使用することで、エージェントが役割間で知識を伝達できることが示される。
参考スコア（独自算出の注目度）: 20.86261546611472
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When communicating, people behave consistently across conversational roles: People understand the words they say and are able to produce the words they hear. To date, artificial agents developed for language tasks have lacked such symmetry, meaning agents trained to produce language are unable to understand it and vice-versa. In this work, we exploit the symmetric nature of communication in order to improve both the efficiency and quality of language acquisition in learning agents. Specifically, we consider the setting in which an agent must learn to both understand and generate words in an existing language, but with the assumption that access to interaction with "oracle" speakers of the language is very limited. We show that using self-play as a substitute for direct supervision enables the agent to transfer its knowledge across roles (e.g. training as a listener but testing as a speaker) and make better inferences about the ground truth lexicon using only a handful of interactions with the oracle.
Abstract（参考訳）: コミュニケーションを行うとき、人々は会話の役割に対して一貫して振る舞う: 人は自分の言葉を理解し、聞く言葉を生成できる。これまで、言語タスクのために開発された人工エージェントは、そのような対称性を欠いていた。本研究では,学習エージェントにおける言語習得の効率と品質を改善するために,コミュニケーションの対称性を利用する。具体的には、エージェントが既存の言語で単語の理解と生成の両方を学ばなければならない場合を考えるが、その言語の"oracle"話者との対話へのアクセスは極めて限定的であると仮定する。直接監督の代用としてセルフプレイを使用することで、エージェントは役割間で知識を伝達し(例えば、リスナとしてのトレーニングと話者としてのテスト)、oracleとのほんの一握りの対話を使って、基礎的真理のレキシコンについてより良い推論を行うことができる。

関連論文リスト

Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文参考訳（メタデータ） (2025-05-09T11:48:36Z)
Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning [31.196865401472664]
自然言語の環境に関する生産的な議論を人間による実演なしで行うように、言語モデルを訓練する。我々はエージェントの目標を利用して、コミュニケーションを誘導する高密度報酬信号として、世界の有用な情報を予測する。我々は、容疑者の告発や証拠提供など、我々の技術による創発的行動を分析し、強力な議論を可能にすることを発見した。
論文参考訳（メタデータ） (2025-02-09T22:44:45Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
Speaking the Language of Your Listener: Audience-Aware Adaptation via Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文参考訳（メタデータ） (2023-05-31T15:17:28Z)
Transforming Human-Centered AI Collaboration: Redefining Embodied Agents Capabilities through Interactive Grounded Language Instructions [23.318236094953072]
人間の知能の適応性は目覚ましいもので、新しいタスクやマルチモーダル環境に迅速に適応することができる。研究コミュニティはインタラクティブな「身体的エージェント」の開発を積極的に進めているこれらのエージェントは、コミュニケーションが壊れたり、指示が不明確であったりした場合に、迅速にフィードバックをリクエストする能力を持っていなければならない。
論文参考訳（メタデータ） (2023-05-18T07:51:33Z)
Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文参考訳（メタデータ） (2023-03-02T18:59:46Z)
Communication Drives the Emergence of Language Universals in Neural Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文参考訳（メタデータ） (2023-01-30T17:22:33Z)
"No, to the Right" -- Online Language Corrections for Robotic Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。 LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文参考訳（メタデータ） (2023-01-06T15:03:27Z)
Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文参考訳（メタデータ） (2021-07-12T19:26:11Z)
On the interaction between supervision and self-play in emergent communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文参考訳（メタデータ） (2020-02-04T02:35:19Z)
Emergence of Pragmatics from Referential Game between Theory of Mind Agents [64.25696237463397]
エージェントが手書きのルールを指定せずに「行間を読む」能力を自発的に学習するアルゴリズムを提案する。協調型マルチエージェント教育状況における心の理論(ToM)を統合し,適応型強化学習(RL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-21T19:37:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。