論文の概要: Reinforced Language Models for Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2508.10839v1
- Date: Thu, 14 Aug 2025 17:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.423592
- Title: Reinforced Language Models for Sequential Decision Making
- Title(参考訳): 逐次決定のための強化言語モデル
- Authors: Jim Dilkes, Vahid Yazdanpanah, Sebastian Stein,
- Abstract要約: 大規模言語モデル(LLM)は、シーケンシャルな意思決定エージェントとしての可能性を示している。
既存のポストトレーニング手法はシングルターンインタラクション用に設計されており、マルチステップエージェントタスクにおけるクレジット割り当てを処理できない。
この研究は、標的となるポストトレーニングが、シーケンシャルな意思決定エージェントを作成するためのモデルスケールに依存する、実用的で効率的な代替手段であることを実証している。
- 参考スコア(独自算出の注目度): 6.971286730860635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show potential as sequential decision-making agents, but their application is often limited due to a reliance on large, computationally expensive models. This creates a need to improve smaller models, yet existing post-training methods are designed for single-turn interactions and cannot handle credit assignment in multi-step agentic tasks. To address this, we introduce Multi-Step Group-Relative Policy Optimization (MS-GRPO), a new algorithm for post-training LLM agents, grounded in formal Text-Mediated Stochastic Game (TSMG) and Language-Agent Policy (LAP) frameworks. For credit assignment, MS-GRPO attributes the entire cumulative episode reward to each individual episode step. We supplement this algorithm with a novel absolute-advantage-weighted episode sampling strategy that we show improves training performance. We evaluate our approach by post-training a 3-billion parameter model on Snake and Frozen Lake. Our experiments demonstrate that the method is effective in improving decision-making performance: our post-trained 3B parameter model outperforms a 72B parameter baseline by 50% on the Frozen Lake task. This work demonstrates that targeted post-training is a practical and efficient alternative to relying on model scale for creating sequential decision-making agents using LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シーケンシャルな意思決定エージェントとしての可能性を示すが、大規模で計算コストのかかるモデルに依存しているため、その応用は制限されることが多い。
これにより、より小さなモデルを改善する必要が生じるが、既存のポストトレーニング手法はシングルターンインタラクション用に設計されており、マルチステップエージェントタスクでのクレジット割り当てを処理できない。
そこで本稿では,マルチステップグループ関連政策最適化(MS-GRPO)を導入し,テキストメディア型確率ゲーム(TSMG)と言語エージェント型政策(LAP)フレームワークを基盤とした後処理 LLM エージェントの新しいアルゴリズムを提案する。
クレジット割り当てでは、MS-GRPOは各エピソードステップに累積エピソード報酬全体の属性を割り当てる。
我々は,このアルゴリズムを,トレーニング性能の向上を示す新しい絶対アドバンテージ型エピソードサンプリング戦略で補足する。
我々は,スネーク湖および凍結湖における3ビリオンパラメータモデルの学習後評価を行った。
学習後3Bパラメータモデルは,凍結湖タスクにおいて72Bパラメータのベースラインを50%上回る性能を示した。
本研究は, LLMを用いた逐次意思決定エージェント作成において, モデルスケールに頼る代わりに, 目標学習が実用的で効率的な方法であることを示す。
関連論文リスト
- Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。
モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。
特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文 参考訳(メタデータ) (2025-07-24T01:09:25Z) - Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。
LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文 参考訳(メタデータ) (2025-05-21T09:35:43Z) - Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - Efficient Sequential Decision Making with Large Language Models [19.083642464977224]
本稿では,大規模言語モデル(LLM)の成功を逐次意思決定に拡張することに焦点を当てる。
本稿では,オンラインモデル選択アルゴリズムを活用してLLMエージェントを逐次意思決定に効率的に組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:13:22Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。