Fugu-MT 論文翻訳(概要): LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs

論文の概要: LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs

arxiv url: http://arxiv.org/abs/2409.04744v1
Date: Sat, 7 Sep 2024 07:40:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 20:51:37.553586
Title: LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs
Title（参考訳）: LMGT:言語モデルによる強化学習における探索・探索バランスの最適化
Authors: Yongxin Deng, Xihe Qiu, Xiaoyu Tan, Wei Chu, Yinghui Xu,
Abstract要約: 強化学習のための新しいサンプル効率フレームワークである textbfLanguage textbfModel textbfGuided textbfTrade-offs (textbfLMGT) を紹介する。
参考スコア（独自算出の注目度）: 27.014415210732103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The uncertainty inherent in the environmental transition model of Reinforcement Learning (RL) necessitates a careful balance between exploration and exploitation to optimize the use of computational resources for accurately estimating an agent's expected reward. Achieving balance in control systems is particularly challenging in scenarios with sparse rewards. However, given the extensive prior knowledge available for many environments, it is redundant to begin learning from scratch in such settings. To address this, we introduce \textbf{L}anguage \textbf{M}odel \textbf{G}uided \textbf{T}rade-offs (i.e., \textbf{LMGT}), a novel, sample-efficient framework that leverages the comprehensive prior knowledge embedded in Large Language Models (LLMs) and their adeptness at processing non-standard data forms, such as wiki tutorials. LMGT proficiently manages the exploration-exploitation trade-off by employing reward shifts guided by LLMs, which direct agents' exploration endeavors, thereby improving sample efficiency. We have thoroughly tested LMGT across various RL tasks and deployed it in industrial-grade RL recommendation systems, where it consistently outperforms baseline methods. The results indicate that our framework can significantly reduce the time cost required during the training phase in RL.
Abstract（参考訳）: 強化学習(RL)の環境遷移モデルに固有の不確実性は、エージェントの期待される報酬を正確に推定するために、計算資源の使用を最適化するために、探索と搾取の間の慎重なバランスを必要とする。コントロールシステムのバランスを取ることは、スパース報酬のあるシナリオでは特に難しい。しかし、多くの環境で利用できる豊富な事前知識を考えると、そのような設定でスクラッチから学習を始めるのは冗長である。これを解決するために,大言語モデル(LLMs)に埋め込まれた包括的事前知識と,wikiチュートリアルなどの非標準データフォームの処理に対する適応性を活用した,新しいサンプル効率のフレームワークである,textbf{L}anguage \textbf{M}odel \textbf{G}uided \textbf{T}rade-offs(すなわち, \textbf{LMGT})を紹介した。 LMGTは、エージェントの探索を指示するLSMによって導かれる報酬シフトを利用することで、探索・探索のトレードオフを十分に管理し、サンプル効率を向上する。我々は、様々なRLタスクにわたってLMGTを徹底的にテストし、産業レベルのRLレコメンデーションシステムにデプロイし、ベースライン手法を一貫して上回っている。その結果、我々のフレームワークは、RLのトレーニングフェーズで必要となる時間コストを大幅に削減できることがわかった。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Small LLMs Do Not Learn a Generalizable Theory of Mind via Reinforcement Learning [1.6114012813668932]
小言語モデル(LLM)は、精神の理論(ToM)能力の開発に苦慮している。長いRLトレーニングは、トレーニングデータセットの統計パターンをハッキングするモデルにつながる。これは学習された振る舞いが、真の抽象的なToM能力の獲得ではなく、狭いオーバーフィッティングの形式であることを示唆している。
論文参考訳（メタデータ） (2025-07-21T16:47:59Z)
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [15.74527731339671]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-04-13T20:10:27Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。 LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文参考訳（メタデータ） (2024-10-10T13:54:11Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。 RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文参考訳（メタデータ） (2024-03-07T16:36:29Z)
Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding [4.799288023353623]
NLPにおける微調整のアプローチは、しばしば探索よりも搾取に焦点を当てる。論理フィードバックからの強化学習を活用して、言語モデルにおける探索と搾取の効果的なバランスを作る。これは、より正確で信頼性があり、論理的に一貫した言語モデルの開発に意味を持つ。
論文参考訳（メタデータ） (2024-03-02T11:54:55Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Reinforcement Learning from LLM Feedback to Counteract Goal Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文参考訳（メタデータ） (2024-01-14T01:09:48Z)
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-31T16:24:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。