論文の概要: Mitigating Strategy-Selection Bias in Reasoning for More Effective Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2509.17905v1
- Date: Mon, 22 Sep 2025 15:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.467221
- Title: Mitigating Strategy-Selection Bias in Reasoning for More Effective Test-Time Scaling
- Title(参考訳): より効果的なテスト時間スケーリングのための推論における戦略選択バイアスの緩和
- Authors: Zongqian Wu, Baoduo Xu, Tianyu Li, Zhu Sun, Xiaofeng Zhu, Lei Feng,
- Abstract要約: テストタイムスケーリング(TTS)は,多種多様な推論経路をサンプリング・集約することにより,大規模言語モデル(LLM)の性能を向上させることが示されている。
本稿では,テスト時間スケーリングの有効性を損なう場合の理論的解析について述べる。
この理論的な洞察に触発され、推論戦略の選択バイアスを軽減するために設計されたフレームワークであるTS-Uniformを導入する。
- 参考スコア(独自算出の注目度): 27.616118519120366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling (TTS) has been shown to improve the performance of large language models (LLMs) by sampling and aggregating diverse reasoning paths. However, existing research has overlooked a critical issue: selection bias of reasoning strategies during scaling. Specifically, when generating reasoning processes, LLMs tend to follow certain strategies (e.g., algebraic solutions for math problems) while neglecting other valid alternatives (e.g., geometric solutions), resulting in insufficient exploration of the solution space. To further understand the impact of this bias, we present a theoretical analysis that reveals when it undermines the effectiveness of test-time scaling. Motivated by this theoretical insight, we introduce TTS-Uniform, a framework designed to mitigate the selection bias of reasoning strategies. It (i) identifies potential strategies, (ii) uniformly allocates the sampling budget across them, and (iii) filters out unstable strategies prior to aggregation. Experimental results show that TTS-Uniform significantly enhances scaling effectiveness across multiple mainstream LLMs and benchmark datasets.
- Abstract(参考訳): テストタイムスケーリング(TTS)は,多種多様な推論経路をサンプリング・集約することにより,大規模言語モデル(LLM)の性能を向上させることが示されている。
しかし、既存の研究は、スケーリング中の推論戦略の選択バイアスという重要な問題を見落としている。
具体的には、推論過程を生成するとき、LSMは特定の戦略(例えば、数学問題に対する代数的解)に従う傾向があり、他の有効な選択肢(例えば、幾何学的解)を無視して、解空間の探索が不十分となる。
このバイアスの影響をより深く理解するために、テスト時間スケーリングの有効性を損なう場合の理論的分析を示す。
この理論的な洞察に触発され、推論戦略の選択バイアスを軽減するために設計されたフレームワークであるTS-Uniformを導入する。
それ
(i)潜在的な戦略を特定する。
二 サンプリング予算を均一に配分し、
(iii)アグリゲーションの前に不安定な戦略をフィルタリングする。
実験の結果,TS-Uniform は複数の主要な LLM およびベンチマークデータセット間のスケーリング効率を著しく向上させることがわかった。
関連論文リスト
- Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning [19.426979775180797]
テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、Large Language Models(LLM)の推論性能を改善する。
我々は、推論最適化モデルが、TSの有効性を制限するような、より多様な出力を生成することが多いことを観察する。
多様性を重視したデータストラテジーにプレフィックスチューニングを適用する軽量な手法であるADAPTを提案する。
論文 参考訳(メタデータ) (2025-06-05T04:02:17Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T08:28:57Z) - A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。
我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。
我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文 参考訳(メタデータ) (2025-04-02T23:51:27Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。