論文の概要: SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2501.19306v3
- Date: Fri, 23 May 2025 04:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.765762
- Title: SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling
- Title(参考訳): SETS: テスト時間スケーリングを改善するための自己検証と自己補正の活用
- Authors: Jiefeng Chen, Jie Ren, Xinyun Chen, Chengrun Yang, Ruoxi Sun, Jinsung Yoon, Sercan Ö Arık,
- Abstract要約: 本稿では、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する新しいアプローチであるSelf-Enhanced Test-Time Scaling(SETS)を紹介する。
SETSは、大規模言語モデルの固有の自己検証と自己補正機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統一する。
- 参考スコア(独自算出の注目度): 44.11609084435251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have created new opportunities to enhance performance on complex reasoning tasks by leveraging test-time computation. However, existing parallel scaling methods, such as repeated sampling or reward model scoring, often suffer from premature convergence and high costs due to task-specific reward model training, while sequential methods like SELF-REFINE cannot effectively leverage increased compute. This paper introduces Self-Enhanced Test-Time Scaling (SETS), a new approach that overcomes these limitations by strategically combining parallel and sequential techniques. SETS exploits the inherent self-verification and self-correction capabilities of LLMs, unifying sampling, verification, and correction within a single framework. This innovative design facilitates efficient and scalable test-time computation for enhanced performance on complex tasks. Our comprehensive experimental results on challenging benchmarks spanning planning, reasoning, math, and coding demonstrate that SETS achieves significant performance improvements and more advantageous test-time scaling behavior than the alternatives.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、テスト時間計算を利用して複雑な推論タスクのパフォーマンスを向上させる新たな機会を生み出している。
しかし、繰り返しサンプリングや報酬モデルスコアリングのような既存の並列スケーリング手法は、タスク固有の報酬モデルトレーニングによる早期収束と高いコストに悩まされることが多く、SELF-REFINEのようなシーケンシャルな手法は、計算量の増加を効果的に活用できない。
本稿では,並列およびシーケンシャルな手法を戦略的に組み合わせることで,これらの制限を克服する新しいアプローチであるSelf-Enhanced Test-Time Scaling(SETS)を紹介する。
SETSは、LLMの固有の自己検証と自己補正機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統一する。
この革新的な設計は、複雑なタスクのパフォーマンスを向上させるために、効率的でスケーラブルなテスト時間計算を容易にする。
計画、推論、数学、コーディングにまたがる挑戦的なベンチマークに関する総合的な実験結果から、SETSは性能が大幅に向上し、代替よりもテスト時間スケーリングの振る舞いが有利であることが示された。
関連論文リスト
- T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models [9.674458633565111]
テスト時間スケーリングにおいて,小言語モデル(sLM)がアウトプットを確実に自己検証できるかどうかを検討する。
本稿では,コードインタプリタなどの外部ツールに多量の検証ステップを委譲するツール統合自己検証(T1)を提案する。
理論解析により,ツール統合は記憶の要求を減らし,テストタイムのスケーリング性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-07T04:01:17Z) - Adaptive Rectification Sampling for Test-Time Compute Scaling [5.085583751997239]
本稿では,大規模言語モデルを自己補正に導くために,適応整形サンプリング(AR-Sampling)を提案する。
我々のアプローチは、モデルがよりきめ細かいレベルで再考し、解の精度を向上することを可能にする。
論文 参考訳(メタデータ) (2025-04-02T02:57:52Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - S-LoRA: Scalable Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、逐次的なタスクに事前訓練されたモデルのパワーを活用するための有望なアプローチとして現れてきた。
本稿では,LRAパラメータの方向と大きさの学習を段階的に分離する,CL(特にクラスインクリメンタルラーニング)のためのスケーラブル低ランク適応(S-LoRA)手法を提案する。
我々の理論的および実証的な分析により、S-LoRAは重なり合う低損失領域に収束する低損失軌道を辿る傾向にあり、CLの安定性と塑性のトレードオフは良好であることが示された。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Active Testing of Large Language Model via Multi-Stage Sampling [17.89896012553348]
AcTracerは,大規模言語モデル(LLM)に適した,アクティブなテストフレームワークである。
ほぼ最適な性能推定を達成するために、戦略的にテストデータの小さなサブセットを選択する。
実験の結果,AcTracerは既存手法と比較して最先端の性能を達成できた。
論文 参考訳(メタデータ) (2024-08-07T06:17:48Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。