論文の概要: What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.24235v1
- Date: Mon, 31 Mar 2025 15:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.484286
- Title: What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
- Title(参考訳): どのようにして、どのように、どのように、どのように、どのように、どのように? 大規模言語モデルにおけるテスト時間スケーリングに関する調査
- Authors: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma,
- Abstract要約: テストタイムスケーリング(TTS)が注目されている。
TTS研究の4つのコア次元に沿って構成された統一多次元フレームワークを提案する。
我々は, TTS の発達軌道を現在まで蒸留し, 実践的展開のための手動ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 37.8160597777396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as ``test-time computing'' has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions.
- Abstract(参考訳): 事前学習時代における計算(データとパラメータ)のスケーリングへの熱意が徐々に薄れていく中、テストタイムスケーリング(TTS)は「テストタイムコンピューティング」とも呼ばれる。
近年の研究では、TTSは大規模言語モデル(LLM)の問題解決能力をさらに向上させ、数学やコーディングといった特別な推論タスクだけでなく、オープンエンドQ&Aのような一般的なタスクにも大きなブレークスルーをもたらすことが示されている。
しかし、近年の取り組みが爆発的に増えているにもかかわらず、体系的な理解を提供する総合的な調査が急務である。
このギャップを埋めるために、我々はTS研究の4つのコア次元に沿って構成された統一された多次元のフレームワークを提案する。
この分類を基盤として,手法,応用シナリオ,評価の側面を網羅的に検討し,より広範なTSの景観の中で個々の技術が持つユニークな機能的役割を浮き彫りにした組織的な分解について述べる。
そこで本研究では, TTSの発達軌道を従来から抽出し, 実践的展開のための実践的ガイドラインを提供する。
さらに、我々はいくつかのオープンな課題を特定し、さらなるスケーリング、技術の機能的本質の明確化、より多くのタスクへの一般化、より多くの貢献など、将来有望な方向性に関する洞察を提供する。
関連論文リスト
- Taming the Titans: A Survey of Efficient LLM Inference Serving [33.65474967178607]
ジェネレーティブAIのための大規模言語モデル(LLM)は目覚ましい進歩を遂げた。
大量のパラメータによって引き起こされるメモリオーバーヘッドは、アテンション機構の高い計算要求と相まって、大きな課題を生じさせる。
地すべりの研究による最近の進歩は、この分野の進歩を著しく加速している。
論文 参考訳(メタデータ) (2025-04-28T12:14:02Z) - Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。
本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文 参考訳(メタデータ) (2025-03-31T23:40:28Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - Machine-assisted quantitizing designs: augmenting humanities and social sciences with artificial intelligence [0.0]
大規模言語モデル(LLM)は、人文科学や社会科学におけるデータ分析をスケールアップする前例のない機会であることが示された。
設計原則を定量化し、変換し、言語学から特徴分析し、人間の専門知識と機械のスケーラビリティを透過的に統合する混合手法を構築します。
このアプローチは、1ダース以上のLDM支援ケーススタディで議論され、9つの多様な言語、複数の規律、タスクをカバーしている。
論文 参考訳(メタデータ) (2023-09-24T14:21:50Z) - Automatic Feature Engineering for Time Series Classification: Evaluation
and Discussion [0.0]
時系列分類(TSC)は、データサイエンスと知識工学において重要かつ困難な問題である。
近年,時系列から教師なし情報要約統計,いわゆる特徴を抽出するツールがいくつか設計されている。
本稿では,既存の機能工学ツールを用いて得られた機能セットの潜在的な予測性能を評価するための,シンプルなTSCプロセスを提案する。
論文 参考訳(メタデータ) (2023-08-02T10:46:42Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。