論文の概要: Controlling Large Language Model with Latent Actions
- arxiv url: http://arxiv.org/abs/2503.21383v1
- Date: Thu, 27 Mar 2025 11:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:27.720561
- Title: Controlling Large Language Model with Latent Actions
- Title(参考訳): 潜時行動による大規模言語モデルの制御
- Authors: Chengxing Jia, Ziniu Li, Pengyuan Wang, Yi-Chen Li, Zhenyu Hou, Yuxiao Dong, Yang Yu,
- Abstract要約: 強化学習(Reinforcement Learning)を用いた下流タスクへの大規模言語モデルの適用は、効果的なアプローチであることが証明されている。
本稿では,LLMの制御性と探索性を高めるために,コンパクトな潜在動作空間を学習する。
我々は,遅延アクション空間を事前学習したLLMに統合するフレームワークである潜在アクションを用いた大規模言語モデル制御(CoLA)を提案する。
- 参考スコア(独自算出の注目度): 27.0292050543406
- License:
- Abstract: Adapting Large Language Models (LLMs) to downstream tasks using Reinforcement Learning (RL) has proven to be an effective approach. However, LLMs do not inherently define the structure of an agent for RL training, particularly in terms of defining the action space. This paper studies learning a compact latent action space to enhance the controllability and exploration of RL for LLMs. We propose Controlling Large Language Models with Latent Actions (CoLA), a framework that integrates a latent action space into pre-trained LLMs. We apply CoLA to the Llama-3.1-8B model. Our experiments demonstrate that, compared to RL with token-level actions, CoLA's latent action enables greater semantic diversity in text generation. For enhancing downstream tasks, we show that CoLA with RL achieves a score of 42.4 on the math500 benchmark, surpassing the baseline score of 38.2, and reaches 68.2 when augmented with a Monte Carlo Tree Search variant. Furthermore, CoLA with RL consistently improves performance on agent-based tasks without degrading the pre-trained LLM's capabilities, unlike the baseline. Finally, CoLA reduces computation time by half in tasks involving enhanced thinking prompts for LLMs by RL. These results highlight CoLA's potential to advance RL-based adaptation of LLMs for downstream applications.
- Abstract(参考訳): 大規模言語モデル(LLM)を強化学習(RL)を用いて下流タスクに適応させることは、効果的なアプローチであることが証明された。
しかし、LLMは本質的にRLトレーニングのためのエージェントの構造を定義していない。
本稿では,LLMの制御性と探索性を高めるために,コンパクトな潜在動作空間を学習する。
我々は,遅延アクション空間を事前学習したLLMに統合するフレームワークである潜在アクションを用いた大規模言語モデル制御(CoLA)を提案する。
我々はLlama-3.1-8BモデルにCoLAを適用する。
実験により,トークンレベルアクションのRLと比較して,CoLAの潜伏動作はテキスト生成における意味的多様性を増大させることが示された。
下流タスクの強化のために、RL を用いた CoLA が数学500 ベンチマークで 42.4 のスコアを達成し、ベースラインスコア38.2 を超え、モンテカルロ木探索の変種で拡張すると 68.2 に達することを示す。
さらに、RLを使用したCoLAは、ベースラインとは異なり、事前訓練されたLLMの能力を劣化させることなく、エージェントベースのタスクのパフォーマンスを一貫して改善する。
最後に、COLAは、LLによるLLMの強化思考プロンプトを含むタスクの計算時間を半分に短縮する。
これらの結果は、下流のアプリケーションにLLMを適応させるCoLAの可能性を浮き彫りにしている。
関連論文リスト
- On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Guiding Reinforcement Learning Using Uncertainty-Aware Large Language Models [1.2233495442213964]
大きな言語モデル(LLMs)は、RLサンプルの非効率を軽減し、人間のトレーナーを置き換える可能性のある代替手段を提供する。
LLMアドバイスの信頼性を高めるためにモンテカルロ・ドロップアウトを用いた校正誘導システムにより,この制限に対処する。
また、動的モデル平均エントロピーに基づく新しいRLポリシー形成手法を開発し、ガイダンスの不確実性に応じてLLMがRLポリシーに与える影響を調整する。
論文 参考訳(メタデータ) (2024-11-15T22:00:29Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement
Learning and Large Language Models [2.5721733711031978]
強化学習(RL)と大規模言語モデル(LLM)を組み合わせた研究を概観する。
本稿では,2つのモデルタイプが相互に相互作用する方法に基づいた,3つの主要クラスの新しい分類法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:01:15Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。