論文の概要: From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.09459v2
- Date: Mon, 13 Apr 2026 12:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 14:47:45.903261
- Title: From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models
- Title(参考訳): 推論からエージェントへ:大規模言語モデルの強化学習におけるクレジットアサインメント
- Authors: Chenchen Zhang,
- Abstract要約: 大規模言語モデルの強化学習(RL)は、スパースで結果レベルの報酬にますます依存している。
我々は2024年から2026年にかけて発行された47のCA法を調査し,それらの分類を課題別に2次元分類で整理した。
我々は,(1)分類ラベル,ベースラインファミリー,エビデンスレベルを備えた構造化機械可読紙の在庫,(2)組織的方法論的ギャップを特定するための将来のCA論文の報告チェックリスト,(3)タスクファミリ,メタデータ要件,管理された分岐タスクを備えたベンチマークプロトコル仕様の3つの再利用可能な資源をコントリビュートする。
- 参考スコア(独自算出の注目度): 3.651838585096184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) for large language models (LLMs) increasingly relies on sparse, outcome-level rewards -- yet determining which actions within a long trajectory caused the outcome remains difficult. This credit assignment (CA) problem manifests in two regimes: reasoning RL, where credit must be distributed across tokens and steps within a single chain-of-thought generation (500--30K+ tokens); and agentic RL, where multi-turn environment interaction introduces stochastic transitions, partial observability, and horizons of 100+ turns (100K--1M tokens), making episode-level credit increasingly uninformative. We survey 47 CA methods (41 core, 6 adjacent enablers) published between 2024 and early 2026, organizing them in a two-dimensional taxonomy by assignment granularity (token, segment, step, turn, multi-agent) and methodology (Monte Carlo, temporal difference, model-based, game-theoretic, information-theoretic). Beyond the survey itself, we contribute three reusable resources: (1) a structured, machine-readable paper inventory with taxonomy labels, baseline families, and evidence levels; (2) a reporting checklist for future CA papers, validated against the reviewed literature to identify systematic methodological gaps; and (3) a benchmark protocol specification with task families, metadata requirements, and controlled bifurcation tasks, accompanied by a method selection decision tree. Our synthesis suggests that the shift from reasoning to agentic RL complicates and reshapes the credit assignment landscape: reasoning CA is maturing around process reward models and critic-free group comparison, while agentic CA is driving genuinely new approaches -- hindsight counterfactual analysis, privileged asymmetric critics, and turn-level MDP reformulations -- that have no direct precedent in reasoning RL.
- Abstract(参考訳): 大規模言語モデル(LLM)のための強化学習(RL)は、スパース、結果レベルの報酬にますます依存している。
このクレジット代入(CA)問題は、2つの体制に現れている: 推論 RL、クレジットは1つのチェーン・オブ・シント世代(500--30K+トークン)内のトークンとステップに分散しなければならない、エージェント RL、マルチターン環境相互作用は確率的遷移、部分的可観測性、100+ターン(100K--1Mトークン)の地平線を導入し、エピソードレベルのクレジットはますます非形式的になる。
2024年から2026年にかけて発行された47のCA法 (41コア, 6隣接イネーブラー) を調査し, 細粒度(トークン, セグメント, ステップ, ターン, マルチエージェント)と方法論(モンテカルロ, 時間差, モデルベース, ゲーム理論, 情報理論)による2次元分類で整理した。
調査自体以外にも,(1)分類ラベル,ベースラインファミリー,エビデンスレベルを備えた構造化機械可読紙在庫,(2)将来のCA論文の報告チェックリスト,(2)体系的な方法論的ギャップを特定するためのレビュー論文に対する検証,(3)タスクファミリ,メタデータ要件,管理された分岐作業を備えたベンチマークプロトコル仕様,の3つの再利用可能な資料をコントリビュートする。
推論CAはプロセス報酬モデルと批判の自由なグループ比較を熟成しているのに対し、エージェントCAは真に新しいアプローチを推進している - 後続の反事実分析、特権的非対称的批判者、ターンレベルのMDP改革 -- RLを推論する直接的な前例がない。
関連論文リスト
- PRISM-MCTS: Learning from Reasoning Trajectories with Metacognitive Reflection [12.175394636562382]
PRISM-MCTSは、人間の並列思考と反射過程からインスピレーションを得る新しい推論フレームワークである。
PRISM-MCTSは、成功戦略を強化し、エラーを起こしやすい枝を刈り取ることにより、効果的に改良を実現する。
PRISM-MCTSの有効性を実証的に評価する。
論文 参考訳(メタデータ) (2026-04-07T04:37:35Z) - Toward Reliable Evaluation of LLM-Based Financial Multi-Agent Systems: Taxonomy, Coordination Primacy, and Cost Awareness [2.851924490038232]
金融取引のマルチエージェントシステムは2023年以来急速に成長している。
この分野には、パフォーマンスを駆動するものや、クレームの信頼性を評価するための共有フレームワークがありません。
アーキテクチャパターン,コーディネーション機構,メモリアーキテクチャ,ツール統合を網羅した4次元分類法を導入する。
論文 参考訳(メタデータ) (2026-03-29T06:35:07Z) - Reinforcing Structured Chain-of-Thought for Video Understanding [49.3086326382764]
概要駆動強化学習(SDRL)を紹介する。
SDRLは、Supervised Fine-Tuning (SFT)の必要性を回避したシングルステージのRLフレームワークである。
提案手法は、7つの公開ビデオQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2026-03-26T22:11:14Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction [70.53044880892196]
本稿では、複雑な推論引数を標準推論パラダイムの組み合わせに分解し、Reasoning Logic Tree (RLT) という形で分解しなければならない、ARCHE(Latent Reasoning Chain extract)という新しいタスクを紹介する。
この作業を容易にするために,我々は,1,900以上の参照と38,000の視点を含む70のNature Communicationsの記事から得られた新しいベンチマークであるARCHE Benchをリリースする。
ARCHE Bench上での10のLLMの評価では、モデルがREAとECのトレードオフを示しており、完全な標準推論チェーンを抽出することはできません。
論文 参考訳(メタデータ) (2025-11-16T07:37:09Z) - PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity [22.289473489488955]
本稿では,新しいポイントツーリスト強化学習フレームワークPoLi-RLを紹介する。
PoLi-RLは、基本的なスコアリング能力を確立するために、単純なポイントワイズでモデルを訓練する。
その後、ポイントワイド、ペアワイド、リストワイドの目的を組み合わせたハイブリッド報酬に移行し、微妙なセマンティックな区別を識別するモデルの能力を洗練させる。
公式のC-STSベンチマークでは、PoLi-RLは48.18のスピアマン相関係数を達成し、クロスエンコーダアーキテクチャのための新しいSOTAを確立した。
論文 参考訳(メタデータ) (2025-10-05T07:57:26Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。