論文の概要: Is Feedback All You Need? Leveraging Natural Language Feedback in
Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.04736v1
- Date: Thu, 7 Dec 2023 22:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:46:15.484487
- Title: Is Feedback All You Need? Leveraging Natural Language Feedback in
Goal-Conditioned Reinforcement Learning
- Title(参考訳): フィードバックは必要か?
目標条件強化学習における自然言語フィードバックの活用
- Authors: Sabrina McCallum, Max Taylor-Davies, Stefano V. Albrecht, Alessandro
Suglia
- Abstract要約: 我々はBabyAIを拡張し、環境力学と目標条件の成功から言語フィードバックを自動的に生成する。
我々は、この付加信号を利用するために、決定変換器アーキテクチャを変更する。
言語フィードバックによるトレーニングは, エージェントの一般化性能を向上させること, あるいは, 目標記述に代えて行うことが確認された。
- 参考スコア(独自算出の注目度): 54.31495290436766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite numerous successes, the field of reinforcement learning (RL) remains
far from matching the impressive generalisation power of human behaviour
learning. One possible way to help bridge this gap be to provide RL agents with
richer, more human-like feedback expressed in natural language. To investigate
this idea, we first extend BabyAI to automatically generate language feedback
from the environment dynamics and goal condition success. Then, we modify the
Decision Transformer architecture to take advantage of this additional signal.
We find that training with language feedback either in place of or in addition
to the return-to-go or goal descriptions improves agents' generalisation
performance, and that agents can benefit from feedback even when this is only
available during training, but not at inference.
- Abstract(参考訳): 多くの成功にもかかわらず、強化学習(RL)の分野は、人間の行動学習の印象的な一般化力に匹敵するものではない。
このギャップを埋める1つの方法は、自然言語で表現されたよりリッチで人間的なフィードバックをRLエージェントに提供することである。
このアイデアを検討するために,まずbabyaiを拡張して,環境ダイナミクスと目標条件の成功から言語フィードバックを自動的に生成する。
そして、この付加信号を利用するために、決定変換器アーキテクチャを変更する。
言語フィードバックによるトレーニングは,再帰や目標記述に代えて,エージェントの一般化パフォーマンスを向上させると同時に,トレーニング中にのみ使用可能な場合でも推論を行わなくても,エージェントがフィードバックの恩恵を受けることができることが分かりました。
関連論文リスト
- Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use [16.425032085699698]
具体的エージェントは、人間の言語を活用して、学習タスクの明示的または暗黙的な知識を得る能力を持つことが望ましい。
タスク学習を容易にするために、リッチ言語をどのように組み込むかは明確ではない。
本稿では,強化学習における言語入力の種類について検討する。
論文 参考訳(メタデータ) (2024-10-31T17:59:52Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文 参考訳(メタデータ) (2023-03-28T16:15:31Z) - Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning
for Robotics [14.863872352905629]
本稿では,自然言語の目標表現に対するスパース報酬を用いたロボット強化学習に焦点を当てた。
まず,専門家のフィードバックを生かした後向きの指示再生機構を提案する。
次に,言語的後見命令を生成するセク2seqモデルを提案する。
論文 参考訳(メタデータ) (2022-04-08T22:01:36Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Influencing Reinforcement Learning through Natural Language Guidance [4.227540427595989]
強化学習エージェントによりリッチなフィードバック信号を提供するために,自然言語のアドバイスをどのように利用できるかを検討する。
通常、政策形成は、エージェントが目標を達成する方法についてより深く学ぶのを助けるために、人間のフィードバックポリシーを採用する。
この場合、このヒューマンフィードバックポリシーを自然言語のアドバイスに基づいて生成されたポリシーに置き換えます。
論文 参考訳(メタデータ) (2021-04-04T00:23:39Z) - Learning Rewards from Linguistic Feedback [30.30912759796109]
人工エージェントの学習信号として,制約のない自然言語フィードバックを探索する。
感情に基づく「リテラル」と「実用的」の3つのモデルと、潜在報酬を予測するためにエンドツーエンドにトレーニングされた推論ネットワークを実装した。
論文 参考訳(メタデータ) (2020-09-30T14:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。