論文の概要: Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM
- arxiv url: http://arxiv.org/abs/2505.10861v1
- Date: Fri, 16 May 2025 05:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.079519
- Title: Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM
- Title(参考訳): LLMによるウォームスタートによる強化学習のデータ効率向上
- Authors: Thang Duong, Minglai Yang, Chicheng Zhang,
- Abstract要約: 本稿では,RL(Reinforcement Learning)アルゴリズムを温めるために,高品質なデータ収集におけるLLM(Large Language Model)の利用について検討する。
我々のアルゴリズムであるLOROは、最適ポリシーに収束し、高いサンプル効率を持つ。
CartPole や Pendulum など,OpenAI の複数の環境において,LORO がベースラインアルゴリズムより優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 14.139788456751706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the usage of Large Language Model (LLM) in collecting high-quality data to warm-start Reinforcement Learning (RL) algorithms for learning in some classical Markov Decision Process (MDP) environments. In this work, we focus on using LLM to generate an off-policy dataset that sufficiently covers state-actions visited by optimal policies, then later using an RL algorithm to explore the environment and improve the policy suggested by the LLM. Our algorithm, LORO, can both converge to an optimal policy and have a high sample efficiency thanks to the LLM's good starting policy. On multiple OpenAI Gym environments, such as CartPole and Pendulum, we empirically demonstrate that LORO outperforms baseline algorithms such as pure LLM-based policies, pure RL, and a naive combination of the two, achieving up to $4 \times$ the cumulative rewards of the pure RL baseline.
- Abstract(参考訳): 本研究では,従来のマルコフ決定プロセス(MDP)環境での学習のために,RLアルゴリズムをウォームスタートするための高品質なデータ収集に,LLM(Large Language Model)を用いることを検討した。
本研究では, LLM を用いて, 最適政策が訪れた状態行動を十分にカバーし, その後, RL アルゴリズムを用いて環境探索を行い, LLM が提案する政策を改善した非政治データセットを作成することに焦点を当てる。
我々のアルゴリズムであるLOROは、LLMの優れた開始ポリシーのおかげで、最適ポリシーに収束し、高いサンプル効率を得ることができる。
CartPole や Pendulum などの OpenAI Gym 環境では,LORO が純粋な LLM ベースのポリシや純粋な RL などのベースラインアルゴリズムよりも優れており,これら2つの組み合わせが単純な RL ベースラインの累積報酬として最大 4 \times$ を達成可能であることを実証的に実証している。
関連論文リスト
- ShiQ: Bringing back Bellman to LLMs [37.70964838115103]
実装が簡単でありながら、非政治的でトークンに関する学習をサポートする実用的なアルゴリズムである ShiQ for Shifted-Q を構築します。
合成データと実世界のベンチマーク(UltraFeedbackやBFCL-V3など)でShiQを評価し、シングルターンLLMとマルチターンLLMの両方での有効性を実証した。
論文 参考訳(メタデータ) (2025-05-16T10:12:11Z) - A Comprehensive Analysis on LLM-based Node Classification Algorithms [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。
10のデータセット、8つのLLMベースのアルゴリズム、3つの学習パラダイムを含み、新しいメソッドとデータセットで簡単に拡張できるように設計されている。
パフォーマンスに影響を与える重要な設定を決定するために、広範な実験、トレーニング、および2200以上のモデルの評価を行います。
その結果, LLM法は半教師付き環境で従来の手法を著しく上回り, その利点は教師付き環境ではごくわずかである,という8つの知見が得られた。
論文 参考訳(メタデータ) (2025-02-02T15:56:05Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Learning to Generate Better Than Your LLM [16.74454360961681]
強化学習は大規模言語モデルを微調整するための強力なパラダイムとして登場した。
我々は、動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張した。
我々はRLアルゴリズムが教師あり学習よりも高い性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-20T18:19:17Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。