Fugu-MT 論文翻訳(概要): Placing Puzzle Pieces Where They Matter: A Question Augmentation Framework for Reinforcement Learning

論文の概要: Placing Puzzle Pieces Where They Matter: A Question Augmentation Framework for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.15830v1
Date: Fri, 17 Apr 2026 08:34:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-20 22:00:19.824929
Title: Placing Puzzle Pieces Where They Matter: A Question Augmentation Framework for Reinforcement Learning
Title（参考訳）: 意味のある場所にプラグピースを配置する:強化学習のための質問強化フレームワーク
Authors: Yangyi Fang, Jiaye Lin, Xiaoliang Fu, Cong Qin, Haolin Shi,
Abstract要約: 強化学習は、大規模言語モデルの推論を強化するための強力なアプローチとなっているが、基本的なジレンマに直面している。 textbfPieceHintは、トレーニング中に重要な推論ステップを戦略的に識別し、提供するヒント注入フレームワークである。
参考スコア（独自算出の注目度）: 1.338679434374531
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning has become a powerful approach for enhancing large language model reasoning, but faces a fundamental dilemma: training on easy problems can cause overfitting and pass@k degradation, while training on hard problems often results in sparse rewards. Recent question augmentation methods address this by prepending partial solutions as hints. However, uniform hint provision may introduce redundant information while missing critical reasoning bottlenecks, and excessive hints can reduce reasoning diversity, causing pass@k degradation. We propose \textbf{PieceHint}, a hint injection framework that strategically identifies and provides critical reasoning steps during training. By scoring the importance of different reasoning steps, selectively allocating hints based on problem difficulty, and progressively withdrawing scaffolding, PieceHint enables models to transition from guided learning to independent reasoning. Experiments on six mathematical reasoning benchmarks show that our 1.5B model achieves comparable average performance to 32B baselines while preserving pass@k diversity across all $k$ values.
Abstract（参考訳）: 強化学習は、大規模な言語モデルの推論を強化するための強力なアプローチになっているが、基本的なジレンマに直面している。近年の疑問増進法では、部分解をヒントとして予測することでこの問題に対処している。しかし、一様ヒントは、致命的な推論ボトルネックを欠いている間に冗長な情報を導入し、過剰なヒントは推論の多様性を低下させ、pass@k分解を引き起こす可能性がある。我々は,学習中に重要な推論ステップを戦略的に識別し,提供するヒント注入フレームワークである‘textbf{PieceHint} を提案する。異なる推論ステップの重要性を評価し、問題の難易度に基づいてヒントを選択的に割り当て、足場を徐々に取り下げることで、PieceHintはモデルがガイド付き学習から独立した推論に移行することを可能にする。 6つの数学的推論ベンチマークの実験によると、1.5Bモデルは、すべての$k$の値でpass@kの多様性を保ちながら、32Bベースラインに匹敵する平均パフォーマンスを達成する。

関連論文リスト

Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-11-12T11:34:19Z)
Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文参考訳（メタデータ） (2025-09-05T16:40:13Z)
Decoupling Understanding from Reasoning via Problem Space Mapping for Small-scale Model Reasoning [22.582715282848795]
本稿では、自然言語問題を標準問題空間にマッピングすることで、推論から理解を分離する新しいフレームワークを提案する。本フレームワークでは, 自己蒸留による推論軌道を反復的に整列する3段階のアルゴリズムであるDURITを導入する。実験により、DURITはドメイン内およびドメイン外の数学的および論理的推論タスクにおけるSLMの性能を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-08-07T01:13:30Z)
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。 GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-06-18T21:15:59Z)
The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。 GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文参考訳（メタデータ） (2024-10-07T06:37:25Z)
Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples [12.48027669682156]
Flow of Reasoning (FoR)は、最小限のデータで多様性を向上させることを目的としている。 FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
論文参考訳（メタデータ） (2024-06-09T07:06:58Z)
DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文参考訳（メタデータ） (2024-01-10T14:38:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。