論文の概要: Multitasking Inhibits Semantic Drift
- arxiv url: http://arxiv.org/abs/2104.07219v1
- Date: Thu, 15 Apr 2021 03:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 04:50:24.911784
- Title: Multitasking Inhibits Semantic Drift
- Title(参考訳): マルチタスクはセマンティックドリフトを抑制する
- Authors: Athul Paul Jacob, Mike Lewis, Jacob Andreas
- Abstract要約: 潜在言語政策(LLP)における学習のダイナミクスについて検討する。
LLPは長距離強化学習の課題を解くことができる。
これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
- 参考スコア(独自算出の注目度): 46.71462510028727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When intelligent agents communicate to accomplish shared goals, how do these
goals shape the agents' language? We study the dynamics of learning in latent
language policies (LLPs), in which instructor agents generate natural-language
subgoal descriptions and executor agents map these descriptions to low-level
actions. LLPs can solve challenging long-horizon reinforcement learning
problems and provide a rich model for studying task-oriented language use. But
previous work has found that LLP training is prone to semantic drift (use of
messages in ways inconsistent with their original natural language meanings).
Here, we demonstrate theoretically and empirically that multitask training is
an effective counter to this problem: we prove that multitask training
eliminates semantic drift in a well-studied family of signaling games, and show
that multitask training of neural LLPs in a complex strategy game reduces drift
and while improving sample efficiency.
- Abstract(参考訳): 知的エージェントが共通の目標を達成するためにコミュニケーションをとるとき、これらの目標がエージェントの言語をどのように形作るのか?
我々は,インストラクターエージェントが自然言語サブゴア記述を生成し,エグゼクティブエージェントがこれらの記述を低レベルのアクションにマップする潜在言語ポリシー(llps)における学習のダイナミクスについて検討する。
LLPは、長期強化学習の課題を解決し、タスク指向言語の使用を研究するためのリッチモデルを提供する。
しかし、以前の研究で、LPPトレーニングは意味的なドリフト(本来の自然言語の意味とは矛盾した方法でメッセージを使用すること)に傾向があることが判明した。
ここでは,マルチタスクトレーニングがこの問題に対する効果的な対策であることを理論的・実証的に証明し,複雑な戦略ゲームにおけるニューラルLPのマルチタスクトレーニングがドリフトを低減し,サンプル効率を向上することを示す。
関連論文リスト
- No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - GLIDE-RL: Grounded Language Instruction through DEmonstration in RL [7.658523833511356]
自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。
本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。
この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
論文 参考訳(メタデータ) (2024-01-03T17:32:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Collaborating with language models for embodied reasoning [30.82976922056617]
複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。
本稿では,ゼロショットを一般化し,障害事例を調査するシステムの能力を検証し,推論を必要とする一連のタスクを提案する。
論文 参考訳(メタデータ) (2023-02-01T21:26:32Z) - On the cross-lingual transferability of multilingual prototypical models
across NLU tasks [2.44288434255221]
教師付きディープラーニングベースのアプローチはタスク指向のダイアログに適用され、限られたドメインや言語アプリケーションに有効であることが証明されている。
実際には、これらのアプローチはドメイン駆動設計とアンダーリソース言語の欠点に悩まされている。
本稿では,原型ニューラルネットワークと多言語トランスフォーマーモデルを用いた相乗的少数ショット学習の言語間変換可能性について検討する。
論文 参考訳(メタデータ) (2022-07-19T09:55:04Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - Networked Multi-Agent Reinforcement Learning with Emergent Communication [18.47483427884452]
MARL(Multi-Agent Reinforcement Learning)法は,他の学習エージェントの存在下で活動するエージェントに対して最適なポリシーを求める。
コーディネートするひとつの方法は、相互通信を学ぶことです。
エージェントは共通のタスクを実行するために学習しながら言語を開発することができるか?
論文 参考訳(メタデータ) (2020-04-06T16:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。