Fugu-MT 論文翻訳(概要): A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents

論文の概要: A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents

arxiv url: http://arxiv.org/abs/2305.16621v1
Date: Fri, 26 May 2023 04:28:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 16:58:22.172547
Title: A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents
Title（参考訳）: その脆さを思い出す: 言語報酬のシェーピングは学習を阻害する可能性がある
Authors: Sukai Huang, Nir Lipovetzky and Trevor Cohn
Abstract要約: 言語報酬形成(Language reward shaping、LRS)は、補足学習において、スパース報酬に向けた進歩を表す行動に報酬を与えるために用いられる。我々は,LSSの明らかな成功は不安定であり,事前の陽性所見はRLの基線が弱いことに起因すると論じる。我々は、RS報酬を用いて訓練されたエージェントが純粋なRLエージェントよりも緩やかに収まるという理論的および実証的な証拠を提供した。
参考スコア（独自算出の注目度）: 45.975580559228014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Teaching agents to follow complex written instructions has been an important yet elusive goal. One technique for improving learning efficiency is language reward shaping (LRS), which is used in reinforcement learning (RL) to reward actions that represent progress towards a sparse reward. We argue that the apparent success of LRS is brittle, and prior positive findings can be attributed to weak RL baselines. Specifically, we identified suboptimal LRS designs that reward partially matched trajectories, and we characterised a novel type of reward perturbation that addresses this issue based on the concept of loosening task constraints. We provided theoretical and empirical evidence that agents trained using LRS rewards converge more slowly compared to pure RL agents.
Abstract（参考訳）: 複雑な命令に従うようにエージェントに教えることが重要な目標である。学習効率を向上させるための1つのテクニックは言語報酬形成(LRS)であり、それは、疎い報酬に向けた進歩を表す行動に報酬を与えるために強化学習(RL)に使用される。 LRSの明らかな成功は不安定であり, 前向きの陽性所見はRLの基準値の弱さに起因する可能性がある。具体的には,部分的に軌道に一致した最適LRS設計を同定し,タスク制約を緩めるという概念に基づいて,この問題に対処する新たなタイプの報酬摂動を特徴付ける。我々は、RS報酬を用いて訓練されたエージェントが純粋なRLエージェントよりも緩やかに収まるという理論的および実証的な証拠を提供した。

関連論文リスト

Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-07-16T17:59:24Z)
Harnessing the Power of Reinforcement Learning for Language-Model-Based Information Retriever via Query-Document Co-Augmentation [35.70731674603417]
LLM(Large Language Models)は、ユーザクエリとコーパスドキュメントの拡張に使用することができる。ユーザクエリとコーパスドキュメントの両方を拡張できるLLMベースのレトリバーを提案する。提案手法は,疎密な設定と密な設定の両方において,LLMに基づく検索性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-06-23T14:14:43Z)
No Free Lunch: Rethinking Internal Feedback for LLM Reasoning [12.881043910316787]
強化学習は、推論を改善するために大規模言語モデル(LLM)の訓練後において強力なパラダイムとして登場した。内的フィードバック(RLIF)からの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は,外的報酬ではなく,本質的なモデル由来の信号にのみ依存する手法である。
論文参考訳（メタデータ） (2025-06-20T17:59:52Z)
Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。 E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文参考訳（メタデータ） (2025-06-07T02:41:54Z)
Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models [26.401130750061323]
CoT(Chain-of- Thought)は、大規模言語モデル(LLM)の能力を普遍的に改善することが期待される。テスト時間計算のスケーリングに対する推論をインセンティブ化することで,複雑な命令を扱う上でのLLMを向上する体系的手法であるRAIFを提案する。より優れたCoT施行のためのサンプルワイドコントラストによる複雑な指示の下での推論の浅く、重要でない性質に対処する。
論文参考訳（メタデータ） (2025-06-02T08:11:44Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [23.99454995087634]
大規模推論モデルにおけるルールベース強化学習の可能性について検討する。合成論理パズルは, 制御可能な複雑性と簡単な解答検証により, 学習データとして用いられる。我々の7Bモデルは、論理コーパスにはない、リフレクション、検証、要約のような高度な推論スキルを発達させる。
論文参考訳（メタデータ） (2025-02-20T17:49:26Z)
Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning [45.30569353687124]
クレジット代入を改善するために,LLMを用いた新しいシンボルベースの意思決定フレームワークであるLaReを紹介する。 LaReの鍵は、多次元のパフォーマンス評価として機能するLatent Rewardの概念である。ラレはSOTA手法に優れた時間的信用割当を達成し、(ii)複数のエージェント間の貢献の分配に優れ、(iii)特定のタスクに対する真理報酬で訓練されたポリシーより優れている。
論文参考訳（メタデータ） (2024-12-15T08:51:14Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
LLMs Are In-Context Reinforcement Learners [30.192422586838997]
大規模言語モデル(LLM)は、コンテキスト内教師あり学習(ICL)を通じて新しいタスクを学習することができる。この研究は、この能力が文脈内強化学習(ICRL)にまで拡張されるかどうかを研究する。本稿では、テスト時間計算の増加と計算バウンド近似により、この欠陥に対処するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-07T17:45:00Z)
Towards Learning Abductive Reasoning using VSA Distributed Representations [56.31867341825068]
本稿では,文脈認識モデルを用いた帰納的ルール学習手法を提案する。 ARLCは、誘引的推論のための、新しくより広く適用可能な訓練目標を特徴としている。プログラムされた知識の上に実例から漸進的に学習することで,ARLCのポストプログラミングトレーニングに対する堅牢性を示す。
論文参考訳（メタデータ） (2024-06-27T12:05:55Z)
FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning [18.60627708199452]
オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用について検討する。本稿ではまず,VLMをRLタスクの報酬として適用する際の報酬ミスアライメントの問題を同定する。ファジィVLM報酬支援RL(FuRL)という軽量微調整法を導入する。
論文参考訳（メタデータ） (2024-06-02T07:20:08Z)
RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。 RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。 RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-26T18:49:59Z)
Recall, Retrieve and Reason: Towards Better In-Context Relation Extraction [11.535892987373947]
関係抽出(RE)は、テキストで言及されたエンティティ間の関係を特定することを目的としている。大規模言語モデル(LLM)は、様々なタスクにおいて、コンテキスト内学習能力を印象的に示している。 LLMは、ほとんどの教師付き細調整RE法と比較して性能が劣る。
論文参考訳（メタデータ） (2024-04-27T07:12:52Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文参考訳（メタデータ） (2023-09-04T09:09:54Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。