論文の概要: On the interaction between supervision and self-play in emergent
communication
- arxiv url: http://arxiv.org/abs/2002.01093v2
- Date: Mon, 22 Jun 2020 20:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:24:58.222468
- Title: On the interaction between supervision and self-play in emergent
communication
- Title(参考訳): 創発的コミュニケーションにおける監督とセルフプレイの相互作用について
- Authors: Ryan Lowe, Abhinav Gupta, Jakob Foerster, Douwe Kiela, Joelle Pineau
- Abstract要約: 本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
- 参考スコア(独自算出の注目度): 82.290338507106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A promising approach for teaching artificial agents to use natural language
involves using human-in-the-loop training. However, recent work suggests that
current machine learning methods are too data inefficient to be trained in this
way from scratch. In this paper, we investigate the relationship between two
categories of learning signals with the ultimate goal of improving sample
efficiency: imitating human language data via supervised learning, and
maximizing reward in a simulated multi-agent environment via self-play (as done
in emergent communication), and introduce the term supervised self-play (S2P)
for algorithms using both of these signals. We find that first training agents
via supervised learning on human data followed by self-play outperforms the
converse, suggesting that it is not beneficial to emerge languages from
scratch. We then empirically investigate various S2P schedules that begin with
supervised learning in two environments: a Lewis signaling game with symbolic
inputs, and an image-based referential game with natural language descriptions.
Lastly, we introduce population based approaches to S2P, which further improves
the performance over single-agent methods.
- Abstract(参考訳): 自然言語を人工エージェントに教えるための有望なアプローチは、ループ内トレーニングを使用することである。
しかし、最近の研究では、現在の機械学習メソッドはデータ非効率であり、この方法でスクラッチからトレーニングできないことが示唆されている。
本稿では,教師付き学習による人間の言語データを模倣し,自己再生(創発的コミュニケーション)によるシミュレーションマルチエージェント環境における報酬を最大化すること,これら2つの信号を用いたアルゴリズムの教師付き自己再生(s2p)という用語を紹介する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話を上回り,ゼロから言語を創出するのは有益ではないことが示唆された。
次に、シンボル入力を持つルイス信号ゲームと、自然言語記述を持つ画像ベースの参照ゲームという、2つの環境で教師付き学習から始まる様々なS2Pスケジュールを実証的に検討する。
最後に,s2pに対する集団ベースアプローチを導入し,単一エージェント法の性能をさらに向上させる。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Contrastive Language, Action, and State Pre-training for Robot Learning [1.1000499414131326]
本稿では,ロボット学習における下流作業を支援するために,言語,行動,状態情報を共有埋め込み空間に統一する手法を提案する。
提案手法であるCLASP(Contrastive Language, Action, and State Pre-training)は,CLIPの定式化を拡張し,分散学習を取り入れ,振る舞いテキストアライメントにおける固有の複雑さと一対多の関係を捉える。
本手法は,ゼロショットテキストビヘイビア検索,未知のロボット動作のキャプション,言語条件の強化学習に先立って動作を学習する,といった下流作業に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-21T07:19:33Z) - Intra-agent speech permits zero-shot task acquisition [13.19051572784014]
ヒトの「インナースピーチ」のプロセスからインスピレーションを得て、具体的行動におけるエージェント内スピーチの役割をよりよく理解する。
我々は、ほとんどラベル付き言語データによる視覚的接頭字幕作成を可能にするアルゴリズムを開発した。
我々は,3次元仮想世界で動作している体現型移動マニピュレータエージェントにエージェント内音声を組み込む。
論文 参考訳(メタデータ) (2022-06-07T09:28:10Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Human Instruction-Following with Deep Reinforcement Learning via
Transfer-Learning from Text [12.88819706338837]
近年の研究では、ニューラルネットワークベースのエージェントが強化学習によって訓練され、シミュレートされた世界で言語のようなコマンドを実行することが説明されている。
本稿では,人間の指示に頑健な深層RLを用いた指示追従エージェントの訓練方法を提案する。
論文 参考訳(メタデータ) (2020-05-19T12:16:58Z) - Multi-agent Communication meets Natural Language: Synergies between
Functional and Structural Language Learning [16.776753238108036]
本稿では,マルチエージェント通信と従来のデータ駆動型アプローチを組み合わせた自然言語学習手法を提案する。
私たちの出発点は、タスク固有の言語データではなく、ジェネリックに基づいて訓練された言語モデルです。
次に、このモデルをマルチエージェントのセルフプレイ環境に配置し、モデルへの適応や修正に使用するタスク固有の報酬を生成する。
論文 参考訳(メタデータ) (2020-05-14T15:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。