論文の概要: EAGER: Asking and Answering Questions for Automatic Reward Shaping in
Language-guided RL
- arxiv url: http://arxiv.org/abs/2206.09674v1
- Date: Mon, 20 Jun 2022 09:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 13:08:19.918816
- Title: EAGER: Asking and Answering Questions for Automatic Reward Shaping in
Language-guided RL
- Title(参考訳): EAGER:言語誘導RLにおける自動リワードシェーピングのための質問と回答
- Authors: Thomas Carta and Sylvain Lamprier and Pierre-Yves Oudeyer and Olivier
Sigaud
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、長い地平線とまばらな報酬タスクであり、多くのトレーニングステップを必要とすることで知られている。
本稿では,エージェントが汎用言語目標から補助目的を抽出する自動報酬形成手法を提案する。
- 参考スコア(独自算出の注目度): 32.40102627844589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) in long horizon and sparse reward tasks is
notoriously difficult and requires a lot of training steps. A standard solution
to speed up the process is to leverage additional reward signals, shaping it to
better guide the learning process. In the context of language-conditioned RL,
the abstraction and generalisation properties of the language input provide
opportunities for more efficient ways of shaping the reward. In this paper, we
leverage this idea and propose an automated reward shaping method where the
agent extracts auxiliary objectives from the general language goal. These
auxiliary objectives use a question generation (QG) and question answering (QA)
system: they consist of questions leading the agent to try to reconstruct
partial information about the global goal using its own trajectory. When it
succeeds, it receives an intrinsic reward proportional to its confidence in its
answer. This incentivizes the agent to generate trajectories which
unambiguously explain various aspects of the general language goal. Our
experimental study shows that this approach, which does not require engineer
intervention to design the auxiliary objectives, improves sample efficiency by
effectively directing exploration.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、長い地平線とまばらな報酬タスクであり、多くのトレーニングステップを必要とする。
プロセスをスピードアップするための標準的なソリューションは、追加の報酬信号を活用し、学習プロセスをより良くガイドするために形作ることです。
言語条件付きRLの文脈では、言語入力の抽象化と一般化プロパティは、報酬をより効率的に形成する機会を提供する。
本稿では,このアイデアを活用し,エージェントが汎用言語目標から補助目的を抽出する自動報酬形成手法を提案する。
これらの補助的目的は、質問生成(QG)と質問応答(QA)システム(QA)を使用する。
成功すると、その答えに対する自信に比例する内在的な報酬を受け取る。
これによりエージェントにインセンティブを与え、汎用言語目標の様々な側面を曖昧に説明する軌跡を生成する。
実験の結果,補助目的の設計に技術者の介入を必要とせず,効果的に探索を指示することで試料の効率を向上させることができた。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - OCALM: Object-Centric Assessment with Language Models [33.10137796492542]
本稿では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,強化学習エージェントに対して本質的に解釈可能な報酬関数を導出する。
OCALMは、リレーショナルな概念に焦点を当てた報酬関数を導出するために、言語モデルの広範な世界知識を使用する。
論文 参考訳(メタデータ) (2024-06-24T15:57:48Z) - Improving Knowledge Extraction from LLMs for Task Learning through Agent
Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。
プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。
本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文 参考訳(メタデータ) (2023-06-11T20:50:14Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - AANG: Automating Auxiliary Learning [110.36191309793135]
補助目的の集合を自動生成する手法を提案する。
我々は、新しい統合分類体系の中で既存の目的を分解し、それらの関係を識別し、発見された構造に基づいて新しい目的を創出することで、これを実現する。
これにより、生成された目的物の空間を探索し、指定されたエンドタスクに最も有用なものを見つけるための、原理的かつ効率的なアルゴリズムが導かれる。
論文 参考訳(メタデータ) (2022-05-27T16:32:28Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。