Fugu-MT 論文翻訳(概要): Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

論文の概要: Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

arxiv url: http://arxiv.org/abs/2502.12215v2
Date: Mon, 03 Mar 2025 15:29:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 17:04:19.570096
Title: Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?
Title（参考訳）: o1-likeモデルのテスト時間スケーリングを再考する: テスト時間スケーリング能力は本当に有益か?
Authors: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu,
Abstract要約: 我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
参考スコア（独自算出の注目度）: 61.85289698610747
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advent of test-time scaling in large language models (LLMs), exemplified by OpenAI's o1 series, has advanced reasoning capabilities by scaling computational resource allocation during inference. While successors like QwQ, Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models truly possess test-time scaling capabilities remains underexplored. This study found that longer CoTs of these o1-like models do not consistently enhance accuracy; in fact, correct solutions are often shorter than incorrect ones for the same questions. Further investigation shows this phenomenon is closely related to models' self-revision capabilities - longer CoTs contain more self-revisions, which often lead to performance degradation. We then compare sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that parallel scaling achieves better coverage and scalability. Based on these insights, we propose Shortest Majority Vote, a method that combines parallel scaling strategies with CoT length characteristics, significantly improving models' test-time scalability compared to conventional majority voting approaches.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるテストタイムスケーリングの出現は、OpenAIのo1シリーズで実証されたものであり、推論中に計算リソース割り当てをスケールすることで高度な推論能力を持つ。 QwQ、Deepseek-R1 (R1)、LIMOといった後継製品はこれらの進歩を再現するが、これらのモデルが本当にテスト時間スケーリング機能を持っているかどうかは未定である。この研究により、これらのo1-likeモデルの長いCoTは、常に精度を向上しないことがわかった。さらなる調査は、この現象がモデルの自己修正能力と密接に関連していることを示している。次に、QwQ、R1、LIMOのシーケンシャルおよび並列スケーリング戦略を比較し、並列スケーリングがより良いカバレッジとスケーラビリティを実現することを発見した。これらの知見に基づいて,並列スケーリング戦略とCoT長特性を組み合わせる手法であるShortest Majority Voteを提案する。

関連論文リスト

It's Not That Simple. An Analysis of Simple Test-Time Scaling [1.9906814758497542]
以前の研究では、o1のようなモデルから抽出したモデルでこのスケーリング動作を複製するシンプルなテストタイムスケーリングが提案されていた。本稿では, 簡単なテスト時間スケーリングの解析を行い, スケーリングの挙動は最大長を強制することによるスケールダウンに起因することが確認された。
論文参考訳（メタデータ） (2025-07-19T00:28:10Z)
Kinetics: Rethinking Test-Time Scaling Laws [18.325591438335007]
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
論文参考訳（メタデータ） (2025-06-05T17:59:24Z)
Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文参考訳（メタデータ） (2025-05-26T20:58:45Z)
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models [72.75501495786297]
本稿では,Mambaアーキテクチャ上に構築されたハイブリッド線形RNN推論モデルM1を紹介する。実験結果から,M1は従来の線形RNNモデルよりも優れていただけでなく,最先端のDeepSeek R1蒸留推論モデルの性能とも一致していることがわかった。
論文参考訳（メタデータ） (2025-04-14T17:38:25Z)
Adaptive Rectification Sampling for Test-Time Compute Scaling [5.085583751997239]
本稿では,大規模言語モデルを自己補正に導くために,適応整形サンプリング(AR-Sampling)を提案する。我々のアプローチは、モデルがよりきめ細かいレベルで再考し、解の精度を向上することを可能にする。
論文参考訳（メタデータ） (2025-04-02T02:57:52Z)
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文参考訳（メタデータ） (2025-03-31T23:40:28Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。 S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文参考訳（メタデータ） (2025-02-20T09:18:53Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文参考訳（メタデータ） (2025-01-31T18:48:08Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。