Fugu-MT 論文翻訳(概要): Adaptive Rectification Sampling for Test-Time Compute Scaling

論文の概要: Adaptive Rectification Sampling for Test-Time Compute Scaling

arxiv url: http://arxiv.org/abs/2504.01317v1
Date: Wed, 02 Apr 2025 02:57:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.215759
Title: Adaptive Rectification Sampling for Test-Time Compute Scaling
Title（参考訳）: テスト時間計算スケーリングのための適応整流サンプリング
Authors: Zhendong Tan, Xingjun Zhang, Chaoyi Hu, Yancheng Pan, Shaoxun Wang,
Abstract要約: 本稿では,大規模言語モデルを自己補正に導くために,適応整形サンプリング(AR-Sampling)を提案する。我々のアプローチは、モデルがよりきめ細かいレベルで再考し、解の精度を向上することを可能にする。
参考スコア（独自算出の注目度）: 5.085583751997239
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The newly released OpenAI-o1 and DeepSeek-R1 have demonstrated that test-time scaling can significantly improve model performance, especially in complex tasks such as logical reasoning. Common test-time scaling methods involve generating more chain of thoughts (CoTs) or longer CoTs with self-correction. However, while self-correction can improve performance, it may lead to significant token waste and reduce readability of the CoT if the reasoning steps are already correct. To demonstrate that large language models (LLMs) can rectify errors at a more fine-grained level, we propose Adaptive Rectification Sampling (AR-Sampling), which can guide the LLMs to self-correction at the appropriate step. AR-Sampling leverages a process-supervised reward model (PRM) as a verifier and constructed trigger sentences to guide the model in adaptive step-level rethinking. Through the experiments on GSM8K and MATH500, it indicate that our approach enables the models to rethink in more fine-grained level, improving the accuracy of solutions, while generating a reasonable number of additional tokens.
Abstract（参考訳）: 新たにリリースされたOpenAI-o1とDeepSeek-R1は、特に論理的推論のような複雑なタスクにおいて、テスト時間のスケーリングがモデルパフォーマンスを大幅に改善することを示した。一般的なテストタイムのスケーリング手法では、思考の連鎖(CoT)がより多く、あるいはより長いCoTを自己補正で生成する。しかし、自己補正は性能を向上させることができるが、既に正しい理由がある場合、トークンの無駄が発生し、CoTの可読性が低下する可能性がある。大規模言語モデル (LLM) がよりきめ細かなレベルで誤りを修正可能であることを示すために, 適応整形サンプリング (Adaptive Rectification Sampling, AR-Sampling) を提案する。 AR-Samplingは、プロセス教師付き報酬モデル(PRM)を検証として活用し、適応的なステップレベルの再考においてモデルを導くトリガー文を構築する。 GSM8K と MATH500 の実験を通して,本手法により,よりきめ細かいレベルでの再考が可能となり,解の精度が向上し,適切な数の追加トークンが生成されることが示唆された。

関連論文リスト

Know What You Don't Know: Uncertainty Calibration of Process Reward Models [8.958124143194512]
最先端のPRMでさえ、キャリブレーションが不十分であり、しばしば成功確率を過大評価することができる。我々は、PRM出力が真の成功確率によく適合するように、量子レグレッションによって行われるキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2025-06-11T02:39:26Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Iterative Deepening Sampling as Efficient Test-Time Scaling [27.807695570974644]
OpenAIのO1シリーズのような最近の推論モデルは、複雑な推論タスクにおいて例外的なパフォーマンスを示している。本稿では,自己補正の強化と高品質なサンプル生成を目的とした,新しい反復型深層サンプリングアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-08T04:39:51Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)
Learning to Correct for QA Reasoning with Black-box LLMs [37.13135300208977]
我々は,機械学習におけるオープンチャレンジとして,COBB (Correct for improve QA reasoning of Black-Box LLMs)を提案する。トレーニングされた適応モデルを使用して、オリジナルのブラックボックスLSMのしばしば不完全な推論から正しい推論、または改善された推論へのセック2seqマッピングを実行する。実験の結果,CoBBは様々なQAベンチマークにおいて推理精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-06-26T18:57:32Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-02-20T14:23:23Z)
Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。 CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-28T17:47:32Z)
Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文参考訳（メタデータ） (2022-06-23T03:25:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。