Fugu-MT 論文翻訳(概要): Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

論文の概要: Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.21178v1
Date: Tue, 27 May 2025 13:29:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.670665
Title: Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning
Title（参考訳）: 走る前に歩く! 強化学習による簡潔LLM推論
Authors: Mingyang Song, Mao Zheng,
Abstract要約: 大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
参考スコア（独自算出の注目度）: 10.255235456427037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As test-time scaling becomes a pivotal research frontier in Large Language Models (LLMs) development, contemporary and advanced post-training methodologies increasingly focus on extending the generation length of long Chain-of-Thought (CoT) responses to enhance reasoning capabilities toward DeepSeek R1-like performance. However, recent studies reveal a persistent overthinking phenomenon in state-of-the-art reasoning models, manifesting as excessive redundancy or repetitive thinking patterns in long CoT responses. To address this issue, in this paper, we propose a simple yet effective two-stage reinforcement learning framework for achieving concise reasoning in LLMs, named ConciseR. Specifically, the first stage, using more training steps, aims to incentivize the model's reasoning capabilities via Group Relative Policy Optimization with clip-higher and dynamic sampling components (GRPO++), and the second stage, using fewer training steps, explicitly enforces conciseness and improves efficiency via Length-aware Group Relative Policy Optimization (L-GRPO). Significantly, ConciseR only optimizes response length once all rollouts of a sample are correct, following the "walk before you run" principle. Extensive experimental results demonstrate that our ConciseR model, which generates more concise CoT reasoning responses, outperforms recent state-of-the-art reasoning models with zero RL paradigm across AIME 2024, MATH-500, AMC 2023, Minerva, and Olympiad benchmarks.
Abstract（参考訳）: テストタイムのスケーリングが大規模言語モデル(LLM)開発における重要な研究フロンティアとなるにつれ、現代的および先進的なポストトレーニング方法論は、DeepSeek R1のようなパフォーマンスに対する推論能力を高めるために、長いチェーン・オブ・ソート(CoT)応答の生成期間を延長することに注力するようになっている。しかし、最近の研究では、最先端の推論モデルにおいて、長いCoT応答において過剰な冗長性または反復的な思考パターンとして現れる永続的な過剰思考現象が明らかになっている。本稿では,LLMにおける簡潔推論を実現するための2段階強化学習フレームワークであるConciseRを提案する。具体的には、トレーニングステップをより多く使う第1段階は、クリップハイでダイナミックなサンプリングコンポーネント(GRPO++)を使用したグループ相対ポリシー最適化(Group Relative Policy Optimization)を通じてモデルの推論能力をインセンティブ化することを目的としており、第2段階はトレーニングステップを少なくすることで、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimization(L-GRPO)を介して効率を向上させる。重要なことに、ConciseRは、サンプルのすべてのロールアウトが正しい場合にのみ、レスポンス長を最適化する。 AIME 2024, MATH-500, AMC 2023, Minerva, Olympiadベンチマークにおいて, より簡潔なCoT推論応答を生成するConciseRモデルは, RLパラダイムがゼロである最近の最先端の推論モデルよりも優れていることを示す。

関連論文リスト

Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。 R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。 R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2026-03-02T17:20:10Z)
Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文参考訳（メタデータ） (2025-11-12T08:29:39Z)
Cog-Rethinker: Hierarchical Metacognitive Reinforcement Learning for LLM Reasoning [14.57256913655025]
LLM推論のための新しい階層的メタ認知的RLフレームワークであるCog-Rethinkerを提案する。我々のCog-Rethinkerは主にRLトレーニングのロールアウト手順に焦点を当てています。問題解決において人間の認識を活用することにより、ゼロ精度の問題をサブプロブレムに分解するようポリシーに促す。
論文参考訳（メタデータ） (2025-10-13T08:16:21Z)
Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-09-28T16:33:07Z)
Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文参考訳（メタデータ） (2025-08-04T06:54:31Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.26953590563232]
我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。 QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。 QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文参考訳（メタデータ） (2025-05-23T09:31:55Z)
LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization [30.95342819013663]
大規模言語モデル(LLM)は、推論において印象的な能力を示している。近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
論文参考訳（メタデータ） (2025-05-23T04:04:05Z)
LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。 LARESは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上することを示す。
論文参考訳（メタデータ） (2025-05-22T16:22:54Z)
S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文参考訳（メタデータ） (2025-05-12T15:50:44Z)
Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking [39.48406368755411]
大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入 RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
論文参考訳（メタデータ） (2025-03-25T12:37:22Z)
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。 StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文参考訳（メタデータ） (2025-03-17T08:51:44Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文参考訳（メタデータ） (2024-10-16T08:46:26Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。