論文の概要: Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
- arxiv url: http://arxiv.org/abs/2511.01937v1
- Date: Sun, 02 Nov 2025 17:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.601333
- Title: Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
- Title(参考訳): より短くて悪くない:数学RLVRにおける長さ正規化器としての手軽なサンプルによるフルーガル推論
- Authors: Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang,
- Abstract要約: 我々は, 緩やかに上向きに上向きに重み付けする問題は, 暗黙的な長さ正規化器として機能することを示した。
textitQwen3-4B-Thinking-2507でこのアプローチを使用した実験では,ベースラインパス@1 AIME25の精度が向上し,平均2倍近いソリューションが生成される。
- 参考スコア(独自算出の注目度): 21.593023093509302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) trained for step-by-step reasoning often become excessively verbose, raising inference cost. Standard Reinforcement Learning with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for training efficiency, leaving the model to train primarily on harder problems that require longer reasoning chains. This skews the output length distribution upward, resulting in a \textbf{model that conflates ``thinking longer'' with ``thinking better''}. In this work, we show that retaining and modestly up-weighting moderately easy problems acts as an implicit length regularizer. Exposing the model to solvable short-chain tasks constrains its output distribution and prevents runaway verbosity. The result is \textbf{\emph{emergent brevity for free}}: the model learns to solve harder problems without inflating the output length, \textbf{ despite the absence of any explicit length penalization}. RLVR experiments using this approach on \textit{Qwen3-4B-Thinking-2507} (with a 16k token limit) achieve baseline pass@1 AIME25 accuracy while generating solutions that are, on average, nearly twice as short. The code is available at \href{https://github.com/MBZUAI-Paris/Frugal-AI}{GitHub}, with datasets and models on \href{https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc}{Hugging Face}.
- Abstract(参考訳): ステップバイステップ推論のために訓練された大規模言語モデル(LLM)は、しばしば過度に冗長になり、推論コストが上昇する。
RLVR(Standard Reinforcement Learning with Verifiable Rewards)パイプラインは、トレーニング効率の‘easy’問題を除去する。
これは出力長の分布を上向きに歪め、その結果 \textbf{model は ``thinking longer'' と ``thinking better'} を混同する。
本研究は, 緩やかに重み付けされ, 適度に重み付けされる問題に対して, 暗黙的長さ正規化器として機能することを示す。
解決可能な短鎖タスクにモデルを出力することは、出力分布を制約し、暴走する冗長性を防ぐ。
その結果は \textbf{\emph{emergent brevity for free}} であり、明確な長さのペナル化が存在しないにもかかわらず、出力長を膨らませることなく難しい問題を解くことを学習する。
このアプローチを用いたRLVR実験は、(トークン制限16kの)textit{Qwen3-4B-Thinking-2507}でベースラインパス@1 AIME25の精度を実現し、平均2倍近いソリューションを生成する。
コードは \href{https://github.com/MBZUAI-Paris/Frugal-AI}{GitHub} で利用可能で、データセットとモデルが \href{https://huggingface.co/collections/MBZUAI-Paris/k2-think-68dcfa8b114686a4b3dc2bc}{Hugging Face} にある。
関連論文リスト
- Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models [26.88030285500965]
大きな推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、しばしば過剰な冗長性に悩まされる。
コンパクトな推論ステップを好んで, LRM をより効率的に推論するための RL フレームワークである textbfStep Pruner (SP) を導入する。
我々のステップアウェア報酬関数は、冗長なステップに対して罰則を課しながら正当性を優先し、誤った推論の強化を防ぐための誤った応答に対する報酬を控える。
論文 参考訳(メタデータ) (2025-10-04T13:24:26Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting [28.537281448659634]
本稿では,性能損失を伴わない推論トレースを動的に短縮するDAP法を提案する。
実験では、難解なCoTサンプルの100Kだけを微調整した学生モデルが800KのLong CoTサンプルで蒸留されたモデルより優れている。
また,本手法は,11種類の多種多様なベンチマークにおいて,比較的少ないトークンを用いて,長鎖よりも短い難易度CoTの精度を向上する。
論文 参考訳(メタデータ) (2025-05-26T09:04:44Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。