論文の概要: ETHER: Aligning Emergent Communication for Hindsight Experience Replay
- arxiv url: http://arxiv.org/abs/2307.15494v2
- Date: Sun, 17 Dec 2023 10:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:34:25.139392
- Title: ETHER: Aligning Emergent Communication for Hindsight Experience Replay
- Title(参考訳): ether: 先見性リプレイのための創発的コミュニケーションの調整
- Authors: Kevin Denamgana\"i, Daniel Hernandez, Ozan Vardal, Sondess Missaoui,
James Alfred Walker
- Abstract要約: 自然言語条件強化学習(RL)エージェントは、構成性などの自然言語の性質が、複雑な政策を学ぶための強い帰納バイアスをもたらすことを示した。
Hindsight Experience Replay (HER)と言語コンディショニングの利点を組み合わせたHIGhERのような以前のアーキテクチャは、スパース報酬環境に対処する。
本研究では,BabyAIベンチマークの目標記述に使用される自然言語と一致した人工言語が出現することを示す。
- 参考スコア(独自算出の注目度): 0.1747623282473278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language instruction following is paramount to enable collaboration
between artificial agents and human beings. Natural language-conditioned
reinforcement learning (RL) agents have shown how natural languages'
properties, such as compositionality, can provide a strong inductive bias to
learn complex policies. Previous architectures like HIGhER combine the benefit
of language-conditioning with Hindsight Experience Replay (HER) to deal with
sparse rewards environments. Yet, like HER, HIGhER relies on an oracle
predicate function to provide a feedback signal highlighting which linguistic
description is valid for which state. This reliance on an oracle limits its
application. Additionally, HIGhER only leverages the linguistic information
contained in successful RL trajectories, thus hurting its final performance and
data-efficiency. Without early successful trajectories, HIGhER is no better
than DQN upon which it is built. In this paper, we propose the Emergent Textual
Hindsight Experience Replay (ETHER) agent, which builds on HIGhER and addresses
both of its limitations by means of (i) a discriminative visual referential
game, commonly studied in the subfield of Emergent Communication (EC), used
here as an unsupervised auxiliary task and (ii) a semantic grounding scheme to
align the emergent language with the natural language of the
instruction-following benchmark. We show that the referential game's agents
make an artificial language emerge that is aligned with the natural-like
language used to describe goals in the BabyAI benchmark and that it is
expressive enough so as to also describe unsuccessful RL trajectories and thus
provide feedback to the RL agent to leverage the linguistic, structured
information contained in all trajectories. Our work shows that EC is a viable
unsupervised auxiliary task for RL and provides missing pieces to make HER more
widely applicable.
- Abstract(参考訳): 自然言語による指示は、人工エージェントと人間との協調を可能にするために最重要である。
自然言語条件強化学習(RL)エージェントは、構成性などの自然言語の性質が、複雑な政策を学ぶための強い帰納バイアスをもたらすことを示した。
Hindsight Experience Replay (HER)と言語コンディショニングの利点を組み合わせたHIGhERのような以前のアーキテクチャは、スパース報酬環境に対処する。
しかし、彼女のように、higherはoracleの述語関数に依存し、どの言語記述がどの状態に対して有効であるかを示すフィードバック信号を提供する。
このoracleへの依存はアプリケーションを制限する。
さらに、HIGhERはRL軌道に含まれる言語情報のみを活用し、最終的な性能とデータ効率を損なう。
初期の軌道が成功しなかったため、HIGhERはDQNに勝っている。
本稿では,より高次に構築され,両者の限界に対処できる創発的後見体験リプレイ(ether)エージェントを提案する。
i)エマージェント・コミュニケーション(EC)のサブフィールドで一般的に研究されている識別的視覚的参照ゲームであって、非監督的補助業務として用いられるもの
(ii)命令追従ベンチマークの自然言語と創発言語を整合させるための意味的接地方式。
本研究では,参照ゲームのエージェントが,BabyAIベンチマークの目標記述に使用される自然言語と一致した人工言語を出現させるとともに,RLの軌道の失敗を記述できるほど表現力があり,RLエージェントにフィードバックを与えて,すべての軌道に含まれる言語的,構造化された情報を活用することを示す。
我々の研究は、ECがRLの有効な教師なし補助タスクであり、HERをより広く適用するための欠片を提供することを示している。
関連論文リスト
- Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Learning to Follow Instructions in Text-Based Games [30.713430615498375]
本研究では,強化学習エージェントが自然言語の指示に従う能力について検討する。
我々はRLエージェントに自然言語命令の内部構造表現を線形時間論理の形で装備する。
我々のフレームワークは、命令の時間的意味論を理解することの利点を共にサポートし、強調します。
論文 参考訳(メタデータ) (2022-11-08T22:20:17Z) - Learning Natural Language Generation from Scratch [25.984828046001013]
本稿では,TRUncated ReinForcement Learning for Language (TrufLL)を紹介する。
強化学習(RL)のみを用いて、条件付き言語モデルをゼロから訓練する独自のap-proachである。
論文 参考訳(メタデータ) (2021-09-20T08:46:51Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - ReferentialGym: A Nomenclature and Framework for Language Emergence &
Grounding in (Visual) Referential Games [0.30458514384586394]
自然言語は、人間が情報を伝達し、共通の目標に向けて協力するための強力なツールである。
計算言語学者は、言語ゲームによって引き起こされる人工言語の出現を研究している。
AIコミュニティは、言語の出現と、より優れたヒューマンマシンインターフェースに向けた基礎研究を開始した。
論文 参考訳(メタデータ) (2020-12-17T10:22:15Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Grounding Language to Autonomously-Acquired Skills via Goal Generation [23.327749767424567]
言語条件付きRLに対する新しい概念的アプローチ:LGB(Language-Goal-Behavior Architecture)を提案する。
LGBは、世界の中間的な意味表現を通じて、スキル学習と言語基盤を分離する。
本稿では,物体間の空間的関係を記述した本質的な意味表現を具現化した,本質的な動機づけ型学習エージェントDECSTRを提案する。
論文 参考訳(メタデータ) (2020-06-12T13:46:10Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。