論文の概要: Rethinking Agentic Reinforcement Learning In Large Language Models
- arxiv url: http://arxiv.org/abs/2604.27859v1
- Date: Thu, 30 Apr 2026 13:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.115335
- Title: Rethinking Agentic Reinforcement Learning In Large Language Models
- Title(参考訳): 大規模言語モデルにおけるエージェント強化学習の再考
- Authors: Fangming Cui, Ruixiao Zhu, Cheng Fang, Sunan Li, Jiahong Li,
- Abstract要約: 大規模言語モデル(LLM)と、ますます複雑でオープンなタスクは、強化学習(RL)内のエージェントパラダイムへのパラダイムシフトを引き起こした。
この新たなフレームワークは、ゴール設定、長期計画、動的戦略適応、そして不確実な現実世界環境における対話的推論が可能な自律エージェントの開発を強調することで、従来のRLを超えて拡張される。
静的な目的やエピソード的相互作用に大きく依存する従来のアプローチとは異なり、LLMベースのAgentic RLはメタ推論、自己回帰、多段階決定といった認知的な機能を学習ループに直接組み込む。
- 参考スコア(独自算出の注目度): 8.378143675399143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has traditionally focused on training specialized agents to optimize predefined reward functions within narrowly defined environments. However, the advent of powerful Large Language Models (LLMs) and increasingly complex, open-ended tasks has catalyzed a paradigm shift towards agentic paradigms within RL. This emerging framework extends beyond traditional RL by emphasizing the development of autonomous agents capable of goal-setting, long-term planning, dynamic strategy adaptation, and interactive reasoning in uncertain, real-world environments. Unlike conventional approaches that rely heavily on static objectives and episodic interactions, LLM-based Agentic RL incorporates cognitive-like capabilities such as meta-reasoning, self-reflection, and multi-step decision-making directly into the learning loop. In this paper, we provide a deep insight for looking the conceptual foundations, methodological innovations, and effective designs underlying this trend. Furthermore, we identify critical challenges and outline promising future directions for building LLM-based Agentic RL.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、狭義の環境において、事前に定義された報酬関数を最適化する専門エージェントの訓練に重点を置いてきた。
しかし、強力な大規模言語モデル(LLM)の出現と、ますます複雑でオープンなタスクによって、RL内のエージェントパラダイムへのパラダイムシフトが触媒化されている。
この新たなフレームワークは、ゴール設定、長期計画、動的戦略適応、そして不確実な現実世界環境における対話的推論が可能な自律エージェントの開発を強調することで、従来のRLを超えて拡張される。
静的な目的やエピソード的相互作用に大きく依存する従来のアプローチとは異なり、LLMベースのAgentic RLはメタ推論、自己回帰、多段階決定といった認知的な機能を学習ループに直接組み込む。
本稿では,この傾向の根底にある概念基盤,方法論的革新,効果的なデザインを探るための深い洞察を提供する。
さらに,LLMをベースとしたエージェントRLを構築する上で,重要な課題を特定し,今後の方向性について概説する。
関連論文リスト
- Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning [45.88626187315028]
大規模言語モデル(LLM)は、複雑な問題を解決するために、アクティブな環境相互作用(例えばツールの使用)が可能なエージェントを構築するために、ますます研究されている。
本稿では,まず,マルコフ決定プロセス(MDP)フレームワークを体系的に拡張することにより,LLMエージェントの強化学習方法論を再検討し,解明する。
次に,RL ベースの LLM Agent のためのモジュール型でフレキシブルでユーザフレンドリなトレーニングフレームワークである Agent-R1 を紹介する。
論文 参考訳(メタデータ) (2025-11-18T13:03:15Z) - A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。
我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。
コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文 参考訳(メタデータ) (2025-10-13T04:07:01Z) - Goal-Guided Efficient Exploration via Large Language Model in Reinforcement Learning [21.50326485889934]
本稿では,RLエージェントを効率的に探索するための構造化ゴールプランナとゴール条件アクションプルーナーを紹介する。
本手法をCrafter と Craftax-Classic で評価し,SGRL が既存の最先端手法と比較して優れた性能を発揮することを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-09-26T07:45:41Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。