Fugu-MT 論文翻訳(概要): ETHER: Aligning Emergent Communication for Hindsight Experience Replay

論文の概要: ETHER: Aligning Emergent Communication for Hindsight Experience Replay

arxiv url: http://arxiv.org/abs/2307.15494v1
Date: Fri, 28 Jul 2023 11:42:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 12:44:53.514934
Title: ETHER: Aligning Emergent Communication for Hindsight Experience Replay
Title（参考訳）: ether: 先見性リプレイのための創発的コミュニケーションの調整
Authors: Kevin Denamgana\"i, Daniel Hernandez, Ozan Vardal, Sondess Missaoui, James Alfred Walker
Abstract要約: 自然言語条件強化学習(RL)エージェントは、構成性などの自然言語の性質が、複雑な政策を学ぶための強い帰納バイアスをもたらすことを示した。 Hindsight Experience Replay (HER)と言語コンディショニングの利点を組み合わせたHIGhERのような以前のアーキテクチャは、スパース報酬環境に対処する。本研究では,BabyAIベンチマークの目標記述に使用される自然言語と一致した人工言語が出現することを示す。
参考スコア（独自算出の注目度）: 0.09786690381850353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language instruction following is paramount to enable collaboration between artificial agents and human beings. Natural language-conditioned reinforcement learning (RL) agents have shown how natural languages' properties, such as compositionality, can provide a strong inductive bias to learn complex policies. Previous architectures like HIGhER combine the benefit of language-conditioning with Hindsight Experience Replay (HER) to deal with sparse rewards environments. Yet, like HER, HIGhER relies on an oracle predicate function to provide a feedback signal highlighting which linguistic description is valid for which state. This reliance on an oracle limits its application. Additionally, HIGhER only leverages the linguistic information contained in successful RL trajectories, thus hurting its final performance and data-efficiency. Without early successful trajectories, HIGhER is no better than DQN upon which it is built. In this paper, we propose the Emergent Textual Hindsight Experience Replay (ETHER) agent, which builds on HIGhER and addresses both of its limitations by means of (i) a discriminative visual referential game, commonly studied in the subfield of Emergent Communication (EC), used here as an unsupervised auxiliary task and (ii) a semantic grounding scheme to align the emergent language with the natural language of the instruction-following benchmark. We show that the referential game's agents make an artificial language emerge that is aligned with the natural-like language used to describe goals in the BabyAI benchmark and that it is expressive enough so as to also describe unsuccessful RL trajectories and thus provide feedback to the RL agent to leverage the linguistic, structured information contained in all trajectories. Our work shows that EC is a viable unsupervised auxiliary task for RL and provides missing pieces to make HER more widely applicable.
Abstract（参考訳）: 自然言語による指示は、人工エージェントと人間との協調を可能にするために最重要である。自然言語条件強化学習(RL)エージェントは、構成性などの自然言語の性質が、複雑な政策を学ぶための強い帰納バイアスをもたらすことを示した。 Hindsight Experience Replay (HER)と言語コンディショニングの利点を組み合わせたHIGhERのような以前のアーキテクチャは、スパース報酬環境に対処する。しかし、彼女のように、higherはoracleの述語関数に依存し、どの言語記述がどの状態に対して有効であるかを示すフィードバック信号を提供する。このoracleへの依存はアプリケーションを制限する。さらに、HIGhERはRL軌道に含まれる言語情報のみを活用し、最終的な性能とデータ効率を損なう。初期の軌道が成功しなかったため、HIGhERはDQNに勝っている。本稿では,より高次に構築され,両者の限界に対処できる創発的後見体験リプレイ(ether)エージェントを提案する。 i)エマージェント・コミュニケーション(EC)のサブフィールドで一般的に研究されている識別的視覚的参照ゲームであって、非監督的補助業務として用いられるもの (ii)命令追従ベンチマークの自然言語と創発言語を整合させるための意味的接地方式。本研究では,参照ゲームのエージェントが,BabyAIベンチマークの目標記述に使用される自然言語と一致した人工言語を出現させるとともに,RLの軌道の失敗を記述できるほど表現力があり,RLエージェントにフィードバックを与えて,すべての軌道に含まれる言語的,構造化された情報を活用することを示す。我々の研究は、ECがRLの有効な教師なし補助タスクであり、HERをより広く適用するための欠片を提供することを示している。

関連論文リスト

PARL: Prompt-based Agents for Reinforcement Learning [8.465228064780742]
大規模言語モデル(LLM)は、自然言語で表現されたタスクに対して高い性能を示す。我々は、グリッド世界の位置を解釈するなど、構造化された非言語的推論について研究する。本稿では,LLM を RL エージェントとして活用する PARL (Prompt-based Agent for Reinforcement Learning) を提案する。
論文参考訳（メタデータ） (2025-10-24T10:04:23Z)
Ground-Compose-Reinforce: Tasking Reinforcement Learning Agents through Formal Language [13.650397934062859]
複雑な知覚における接地言語(例えばピクセル)と行動は、言語を介して人間と対話できる位置にあるエージェントを構築する際に重要な課題である。データから形式言語をグラウンド化するためのニューロシンボリックなフレームワークであるGround-Compose-Reinforceを提案する。データ駆動学習により、我々のフレームワークは報酬関数やシンボル検出器といったドメイン固有の要素の手動設計を避けます。
論文参考訳（メタデータ） (2025-07-14T19:05:15Z)
Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models [51.608246558235166]
SCARLetは、RALMsでユーティリティベースのレトリバーをトレーニングするためのフレームワークである。マルチタスクの一般化とパッセージ間相互作用という2つの重要な要素が組み込まれている。ドメイン内とドメイン外の両方で、さまざまなタスクにまたがる10のデータセットに対するアプローチを評価します。
論文参考訳（メタデータ） (2025-04-01T09:28:28Z)
Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use [16.425032085699698]
具体的エージェントは、人間の言語を活用して、学習タスクの明示的または暗黙的な知識を得る能力を持つことが望ましい。タスク学習を容易にするために、リッチ言語をどのように組み込むかは明確ではない。本稿では,強化学習における言語入力の種類について検討する。
論文参考訳（メタデータ） (2024-10-31T17:59:52Z)
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文参考訳（メタデータ） (2024-10-22T09:25:21Z)
P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。自然言語命令は明示的なタスクプランニングを欠くことが多い。タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文参考訳（メタデータ） (2024-09-17T15:29:34Z)
Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文参考訳（メタデータ） (2024-06-26T17:59:18Z)
Learning to Follow Instructions in Text-Based Games [30.713430615498375]
本研究では,強化学習エージェントが自然言語の指示に従う能力について検討する。我々はRLエージェントに自然言語命令の内部構造表現を線形時間論理の形で装備する。我々のフレームワークは、命令の時間的意味論を理解することの利点を共にサポートし、強調します。
論文参考訳（メタデータ） (2022-11-08T22:20:17Z)
Learning Natural Language Generation from Scratch [25.984828046001013]
本稿では,TRUncated ReinForcement Learning for Language (TrufLL)を紹介する。強化学習(RL)のみを用いて、条件付き言語モデルをゼロから訓練する独自のap-proachである。
論文参考訳（メタデータ） (2021-09-20T08:46:51Z)
ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:35:22Z)
ReferentialGym: A Nomenclature and Framework for Language Emergence & Grounding in (Visual) Referential Games [0.30458514384586394]
自然言語は、人間が情報を伝達し、共通の目標に向けて協力するための強力なツールである。計算言語学者は、言語ゲームによって引き起こされる人工言語の出現を研究している。 AIコミュニティは、言語の出現と、より優れたヒューマンマシンインターフェースに向けた基礎研究を開始した。
論文参考訳（メタデータ） (2020-12-17T10:22:15Z)
GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。 GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文参考訳（メタデータ） (2020-10-06T20:30:35Z)
Grounding Language to Autonomously-Acquired Skills via Goal Generation [23.327749767424567]
言語条件付きRLに対する新しい概念的アプローチ:LGB(Language-Goal-Behavior Architecture)を提案する。 LGBは、世界の中間的な意味表現を通じて、スキル学習と言語基盤を分離する。本稿では,物体間の空間的関係を記述した本質的な意味表現を具現化した,本質的な動機づけ型学習エージェントDECSTRを提案する。
論文参考訳（メタデータ） (2020-06-12T13:46:10Z)
Probing Linguistic Features of Sentence-Level Representations in Neural Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文参考訳（メタデータ） (2020-04-17T09:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。