論文の概要: A Reminder of its Brittleness: Language Reward Shaping May Hinder
Learning for Instruction Following Agents
- arxiv url: http://arxiv.org/abs/2305.16621v1
- Date: Fri, 26 May 2023 04:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:58:22.172547
- Title: A Reminder of its Brittleness: Language Reward Shaping May Hinder
Learning for Instruction Following Agents
- Title(参考訳): その脆さを思い出す: 言語報酬のシェーピングは学習を阻害する可能性がある
- Authors: Sukai Huang, Nir Lipovetzky and Trevor Cohn
- Abstract要約: 言語報酬形成(Language reward shaping、LRS)は、補足学習において、スパース報酬に向けた進歩を表す行動に報酬を与えるために用いられる。
我々は,LSSの明らかな成功は不安定であり,事前の陽性所見はRLの基線が弱いことに起因すると論じる。
我々は、RS報酬を用いて訓練されたエージェントが純粋なRLエージェントよりも緩やかに収まるという理論的および実証的な証拠を提供した。
- 参考スコア(独自算出の注目度): 45.975580559228014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teaching agents to follow complex written instructions has been an important
yet elusive goal. One technique for improving learning efficiency is language
reward shaping (LRS), which is used in reinforcement learning (RL) to reward
actions that represent progress towards a sparse reward. We argue that the
apparent success of LRS is brittle, and prior positive findings can be
attributed to weak RL baselines. Specifically, we identified suboptimal LRS
designs that reward partially matched trajectories, and we characterised a
novel type of reward perturbation that addresses this issue based on the
concept of loosening task constraints. We provided theoretical and empirical
evidence that agents trained using LRS rewards converge more slowly compared to
pure RL agents.
- Abstract(参考訳): 複雑な命令に従うようにエージェントに教えることが重要な目標である。
学習効率を向上させるための1つのテクニックは言語報酬形成(LRS)であり、それは、疎い報酬に向けた進歩を表す行動に報酬を与えるために強化学習(RL)に使用される。
LRSの明らかな成功は不安定であり, 前向きの陽性所見はRLの基準値の弱さに起因する可能性がある。
具体的には,部分的に軌道に一致した最適LRS設計を同定し,タスク制約を緩めるという概念に基づいて,この問題に対処する新たなタイプの報酬摂動を特徴付ける。
我々は、RS報酬を用いて訓練されたエージェントが純粋なRLエージェントよりも緩やかに収まるという理論的および実証的な証拠を提供した。
関連論文リスト
- Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [23.99454995087634]
大規模推論モデルにおけるルールベース強化学習の可能性について検討する。
合成論理パズルは, 制御可能な複雑性と簡単な解答検証により, 学習データとして用いられる。
我々の7Bモデルは、論理コーパスにはない、リフレクション、検証、要約のような高度な推論スキルを発達させる。
論文 参考訳(メタデータ) (2025-02-20T17:49:26Z) - Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning [45.30569353687124]
クレジット代入を改善するために,LLMを用いた新しいシンボルベースの意思決定フレームワークであるLaReを紹介する。
LaReの鍵は、多次元のパフォーマンス評価として機能するLatent Rewardの概念である。
ラレはSOTA手法に優れた時間的信用割当を達成し、(ii)複数のエージェント間の貢献の分配に優れ、(iii)特定のタスクに対する真理報酬で訓練されたポリシーより優れている。
論文 参考訳(メタデータ) (2024-12-15T08:51:14Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Towards Learning Abductive Reasoning using VSA Distributed Representations [56.31867341825068]
本稿では,文脈認識モデルを用いた帰納的ルール学習手法を提案する。
ARLCは、誘引的推論のための、新しくより広く適用可能な訓練目標を特徴としている。
プログラムされた知識の上に実例から漸進的に学習することで,ARLCのポストプログラミングトレーニングに対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-06-27T12:05:55Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - Recall, Retrieve and Reason: Towards Better In-Context Relation Extraction [11.535892987373947]
関係抽出(RE)は、テキストで言及されたエンティティ間の関係を特定することを目的としている。
大規模言語モデル(LLM)は、様々なタスクにおいて、コンテキスト内学習能力を印象的に示している。
LLMは、ほとんどの教師付き細調整RE法と比較して性能が劣る。
論文 参考訳(メタデータ) (2024-04-27T07:12:52Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。