Fugu-MT 論文翻訳(概要): HS-STAR: Hierarchical Sampling for Self-Taught Reasoners via Difficulty Estimation and Budget Reallocation

論文の概要: HS-STAR: Hierarchical Sampling for Self-Taught Reasoners via Difficulty Estimation and Budget Reallocation

arxiv url: http://arxiv.org/abs/2505.19866v1
Date: Mon, 26 May 2025 11:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.399498
Title: HS-STAR: Hierarchical Sampling for Self-Taught Reasoners via Difficulty Estimation and Budget Reallocation
Title（参考訳）: HS-STAR:難易度推定と予算再配置による自己学習型共振器の階層サンプリング
Authors: Feng Xiong, Hongling Xu, Yifei Wang, Runxi Cheng, Yong Wang, Xiangxiang Chu,
Abstract要約: 自己学習推論器(STaR)は、自己学習に自己生成応答を活用することにより、大規模言語モデル(LLM)の数学的推論能力を高める。本稿では,自己学習推論のための階層型サンプリングフレームワークHS-STaRを提案する。
参考スコア（独自算出の注目度）: 23.476410355434655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-taught reasoners (STaRs) enhance the mathematical reasoning abilities of large language models (LLMs) by leveraging self-generated responses for self-training. Recent studies have incorporated reward models to guide response selection or decoding, aiming to obtain higher-quality data. However, they typically allocate a uniform sampling budget across all problems, overlooking the varying utility of problems at different difficulty levels. In this work, we conduct an empirical study and find that problems near the boundary of the LLM's reasoning capability offer significantly greater learning utility than both easy and overly difficult ones. To identify and exploit such problems, we propose HS-STaR, a Hierarchical Sampling framework for Self-Taught Reasoners. Given a fixed sampling budget, HS-STaR first performs lightweight pre-sampling with a reward-guided difficulty estimation strategy to efficiently identify boundary-level problems. Subsequently, it dynamically reallocates the remaining budget toward these high-utility problems during a re-sampling phase, maximizing the generation of valuable training data. Extensive experiments across multiple reasoning benchmarks and backbone LLMs demonstrate that HS-STaR significantly outperforms other baselines without requiring additional sampling budget.
Abstract（参考訳）: 自己学習推論器(STaR)は、自己学習に自己生成応答を活用することにより、大規模言語モデル(LLM)の数学的推論能力を高める。近年の研究では、応答選択や復号を導くための報酬モデルが組み込まれており、高品質なデータを得ることを目指している。しかしながら、彼らは通常、様々な難易度における問題の様々な有用性を見越して、すべての問題に対して一様にサンプリング予算を割り当てる。本研究では, LLMの推論能力の境界付近の問題は, 容易かつ過度に困難であるものよりも, 学習性に優れることを示した。このような問題を同定し,活用するために,自己学習推論のための階層型サンプリングフレームワークHS-STaRを提案する。 HS-STaRは、固定サンプリング予算が与えられた場合、まず、境界レベルの問題を効率的に識別するための報酬誘導困難度推定戦略を用いて、軽量プリサンプリングを行う。その後、再サンプリングフェーズにおいて、これらの高ユーティリティ問題に対する残りの予算を動的に再配置し、貴重なトレーニングデータの生成を最大化する。複数の推論ベンチマークとバックボーンLDMの広範な実験により、HS-STaRは追加のサンプリング予算を必要とせず、他のベースラインを著しく上回っていることが示された。

関連論文リスト

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。 SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文参考訳（メタデータ） (2025-06-10T17:02:00Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective [27.94738910330893]
強化学習は、大規模言語モデルの推論能力を高める可能性を示す。既存の手法では,問題問題に基づくスケジューリングによる効率向上が試みられている。本稿では,問題の正確かつ安定した推定を可能にするtextbfC$ompetence-$textbfD$ifficultyを提案する。
論文参考訳（メタデータ） (2025-05-23T09:15:26Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning [19.457621121430464]
STEM領域での強化学習を伴う大規模推論モデル(LRM)の訓練は、高品質で多様性があり、検証可能な問題セットの不足によって妨げられる。検証可能な報酬(RLVR)を用いたLRM強化学習における高品質アラインド推論問題の一元化手法であるSHARPを導入する。我々は、最先端のLEMを活用して、難解なSTEM質問を推論し、検証し、次に、強化学習ループを使用して、検証可能な報酬信号によってモデルの推論を洗練する。
論文参考訳（メタデータ） (2025-05-20T09:54:42Z)
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文参考訳（メタデータ） (2025-05-19T15:43:10Z)
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文参考訳（メタデータ） (2025-03-21T17:59:55Z)
Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling [38.7578639980701]
自己改善手法により、大規模な言語モデルがソリューション自体を生成できる。モデルでは、簡単なクエリをオーバーサンプルし、まだマスターしていないクエリをアンダーサンプルする傾向があります。本稿では,重み付きデータ抽出の効率化を目的とした,ガイド付き自己改善(GSI)について紹介する。
論文参考訳（メタデータ） (2024-11-01T17:18:45Z)
Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文参考訳（メタデータ） (2024-08-30T05:14:59Z)
Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning [19.408941114068444]
自己整合性(英: Self-Consistency, SC)は、思考の連鎖推論のための復号法である。その変種である適応自己整合(ASC)とアーリーストッピング自己整合(ESC)は、プレサンプルの集合の後方分布に基づいて標本の数を動的に調整する。本稿では,バッチクエリの難易度情報を利用して推論資源を適応的に割り当てるDifficulty-Adaptive Self-Consistency (DSC)を提案する。
論文参考訳（メタデータ） (2024-08-24T04:03:35Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Solving Multistage Stochastic Linear Programming via Regularized Linear Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。 LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文参考訳（メタデータ） (2021-10-07T02:36:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。