論文の概要: Iterative Deepening Sampling for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.05449v1
- Date: Sat, 08 Feb 2025 04:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:36:11.755070
- Title: Iterative Deepening Sampling for Large Language Models
- Title(参考訳): 大規模言語モデルの反復的ディープニングサンプリング
- Authors: Weizhe Chen, Sven Koenig, Bistra Dilkina,
- Abstract要約: 効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.807695570974644
- License:
- Abstract: The recent release of OpenAI's o1 models and other similar frameworks showcasing test-time scaling laws has demonstrated their exceptional capability to tackle complex reasoning tasks. Inspired by this, subsequent research has revealed that such test-time scaling laws hinge on the model's ability to search both within a single response (intra-response) and across multiple responses (inter-response) during training. Crucially, beyond selecting a single optimal response, the model must also develop robust self-correction capabilities within its own outputs. However, training models to achieve effective self-evaluation and self-correction remains a significant challenge, heavily dependent on the quality of self-reflection data. In this paper, we address this challenge by focusing on enhancing the quality of self-reflection data generation for complex problem-solving, which can subsequently improve the training of next-generation large language models (LLMs). Specifically, we explore how manually triggering a model's self-correction mechanisms can improve performance on challenging reasoning tasks. To this end, we propose a novel iterative deepening sampling algorithm framework designed to enhance self-correction and generate higher-quality samples. Through extensive experiments on Math500 and AIME benchmarks, we demonstrate that our method achieves a higher success rate on difficult tasks and provide detailed ablation studies to analyze its effectiveness across diverse settings.
- Abstract(参考訳): OpenAIのo1モデルや他の同様のフレームワークが最近リリースされ、テスト時のスケーリング法則が示されている。
これに触発されたその後の研究では、このようなテストタイムスケーリング法則が、トレーニング中に単一の応答(応答間)と複数の応答(応答間)の両方を探索するモデルの能力にヒンジしていることが明らかになった。
重要なことに、一つの最適応答を選択すること以外は、モデルは自身の出力内で堅牢な自己補正能力を開発する必要がある。
しかし、効果的な自己評価と自己補正を実現するためのトレーニングモデルは、自己回帰データの品質に大きく依存する、重要な課題である。
本稿では、複雑な問題解決のための自己回帰データ生成の質向上に着目し、次世代の大規模言語モデル(LLM)の訓練を改善することで、この問題に対処する。
具体的には、モデルの自己補正メカニズムを手動でトリガーすることで、困難な推論タスクのパフォーマンスを向上させる方法について検討する。
そこで本研究では,自己補正の強化と高品質なサンプル生成を目的とした,反復型深層サンプリングアルゴリズムを提案する。
Math500 と AIME ベンチマークの広範な実験を通じて,本手法は困難タスクにおいて高い成功率を達成し,その効果を多種多様な設定で分析するための詳細なアブレーション研究を提供する。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners [18.960920426485163]
自己改善は、パフォーマンスを向上させる主要な方法として現れています。
本稿では,この反復的プロセスにおいて2つの重要な要因をモニタする手法を提案し,提案する。
B-STaRは、反復的な構成を調整し、探索とエクスプロイトのバランスをとる自己学習推論フレームワークである。
論文 参考訳(メタデータ) (2024-12-23T03:58:34Z) - Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。
本稿では,自己改善のための数学的定式化について述べる。
また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文 参考訳(メタデータ) (2024-12-03T18:47:26Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。