論文の概要: ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.13095v1
- Date: Mon, 15 Dec 2025 08:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.588551
- Title: ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning
- Title(参考訳): ADHint:強化学習に先立つ難易度の高い適応的ヒント
- Authors: Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang,
- Abstract要約: 本稿では、ヒント比と相対アドバンテージ推定の両方において、難易度を重要な要因として扱うADHintを提案する。
私たちのコードとデータセットは、論文の受理時に公開されます。
- 参考スコア(独自算出の注目度): 10.874323738819946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To combine the advantages of Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), recent methods have integrated ''hints'' into post-training, which are prefix segments of complete reasoning trajectories, aiming for powerful knowledge expansion and reasoning generalization. However, existing hint-based RL methods typically ignore difficulty when scheduling hint ratios and estimating relative advantages, leading to unstable learning and excessive imitation of off-policy hints. In this work, we propose ADHint, which treats difficulty as a key factor in both hint-ratio schedule and relative-advantage estimation to achieve a better trade-off between exploration and imitation. Specifically, we propose Adaptive Hint with Sample Difficulty Prior, which evaluates each sample's difficulty under the policy model and accordingly schedules an appropriate hint ratio to guide its rollouts. We also introduce Consistency-based Gradient Modulation and Selective Masking for Hint Preservation to modulate token-level gradients within hints, preventing biased and destructive updates. Additionally, we propose Advantage Estimation with Rollout Difficulty Posterior, which leverages the relative difficulty of rollouts with and without hints to estimate their respective advantages, thereby achieving more balanced updates. Extensive experiments across diverse modalities, model scales, and domains demonstrate that ADHint delivers superior reasoning ability and out-of-distribution generalization, consistently surpassing existing methods in both pass@1 and avg@8. Our code and dataset will be made publicly available upon paper acceptance.
- Abstract(参考訳): SFT(Supervised Fine-Tuning)と強化学習(Reinforcement Learning, RL)の利点を併せ持つため、近年の手法は「隠れ」を学習後学習に取り入れている。
しかし、既存のヒントベースのRL法は、通常、ヒント比のスケジューリングと相対的な優位性を推定する際の難しさを無視し、不安定な学習と非政治的ヒントの過剰な模倣につながる。
本研究では,探索と模倣のトレードオフを改善するために,ヒント比スケジュールと相対アドバンテージ推定の両方において困難を重要要因として扱うADHintを提案する。
具体的には、各サンプルのポリシーモデル下での難易度を評価し、適切なヒント比をスケジュールしてロールアウトを案内するAdaptive Hint with Sample Difficulty Priorを提案する。
我々はまた、ヒント内のトークンレベルの勾配を変調し、バイアスや破壊的な更新を防止するために、一貫性に基づくグラディエント変調とHint保存のための選択的マスキングを導入する。
さらに,転がり難いポストミラーを用いたアドバンテージ推定を提案し,各アドバンテージを推定するためにヒントのないロールアウトの相対的難易度を利用して,よりバランスの取れた更新を実現する。
多様なモダリティ、モデルスケール、ドメインにわたる広範な実験により、ADHintは、pass@1およびavg@8の既存のメソッドを一貫して上回る、優れた推論能力とアウト・オブ・ディストリビューションの一般化を提供することを示した。
私たちのコードとデータセットは、論文の受理時に公開されます。
関連論文リスト
- Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation [16.82426251068573]
リンク予測(LP)は、グラフ機械学習において重要なタスクである。
既存の手法は、疎結合性からの限られた監督を含む重要な課題に直面している。
これらの課題に対処するためのソリューションとして,事前学習について検討する。
論文 参考訳(メタデータ) (2025-08-06T17:10:31Z) - Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - C-Learner: Constrained Learning for Causal Inference [4.370964009390564]
本稿では,両世界の最適な重み付けを実現し,安定したプラグイン推定を実現する新しいデバイアス化手法を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Adaptive End-to-End Metric Learning for Zero-Shot Cross-Domain Slot
Filling [2.6056468338837457]
スロットフィリングは、トレーニング中にサンプルを見ることのない新しいドメインを扱う上で重要な課題である。
ほとんどの先行研究は、メートル法学習に基づく2パスパイプライン方式でこの問題に対処している。
そこで本研究では,ゼロショットスロットの補充に挑戦する手法として,適応的なエンドツーエンドの計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T19:01:16Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。