論文の概要: What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.24235v2
- Date: Wed, 16 Apr 2025 04:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:37:29.717914
- Title: What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
- Title(参考訳): どのようにして、どのように、どのように、どのように、どのように、どのように? 大規模言語モデルにおけるテスト時間スケーリングに関する調査
- Authors: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Niklas Muennighoff, Irwin King, Xue Liu, Chen Ma,
- Abstract要約: テストタイムスケーリング(TTS)が注目されている。
TTS研究の4つのコア次元に沿って構成された統一多次元フレームワークを提案する。
我々は, TTS の発達軌道を現在まで蒸留し, 実践的展開のための手動ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 42.612762552085016
- License:
- Abstract: As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as ``test-time computing'' has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions. Our repository is available on https://github.com/testtimescaling/testtimescaling.github.io/
- Abstract(参考訳): 事前学習時代における計算(データとパラメータ)のスケーリングへの熱意が徐々に薄れていく中、テストタイムスケーリング(TTS)は「テストタイムコンピューティング」とも呼ばれる。
近年の研究では、TTSは大規模言語モデル(LLM)の問題解決能力をさらに向上させ、数学やコーディングといった特別な推論タスクだけでなく、オープンエンドQ&Aのような一般的なタスクにも大きなブレークスルーをもたらすことが示されている。
しかし、近年の取り組みが爆発的に増えているにもかかわらず、体系的な理解を提供する総合的な調査が急務である。
このギャップを埋めるために、我々はTS研究の4つのコア次元に沿って構成された統一された多次元のフレームワークを提案する。
この分類を基盤として,手法,応用シナリオ,評価の側面を網羅的に検討し,より広範なTSの景観の中で個々の技術が持つユニークな機能的役割を浮き彫りにした組織的な分解について述べる。
そこで本研究では, TTSの発達軌道を従来から抽出し, 実践的展開のための実践的ガイドラインを提供する。
さらに、我々はいくつかのオープンな課題を特定し、さらなるスケーリング、技術の機能的本質の明確化、より多くのタスクへの一般化、より多くの貢献など、将来有望な方向性に関する洞察を提供する。
私たちのリポジトリはhttps://github.com/testtimescaling/testtimescaling.github.io/で利用可能です。
関連論文リスト
- Measuring Emergent Capabilities of LLMs for Software Engineering: How Far Are We? [45.126233498200534]
ソフトウェア工学の文脈における能力の出現について検討する。
本稿では、バグ修正、コード翻訳、コミットメッセージ生成という3つのSEタスクでこの現象を評価するためのモデルに依存しないパイプラインを提案する。
我々の発見は、選択したタスクセットのモデルサイズをスケールすることによる創発的能力の概念を支持する証拠を提供していない。
論文 参考訳(メタデータ) (2024-11-26T22:48:55Z) - The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends [64.99423243200296]
会話分析(CA)は、会話データから重要な情報を発見し分析する。
本稿では,CAタスクの徹底的なレビューとシステム化を行い,既存の業務を要約する。
会話シーンの再構築,奥行きの属性分析,ターゲットトレーニングの実行,会話の生成から,CAの4つの重要なステップを導出した。
論文 参考訳(メタデータ) (2024-09-21T16:52:43Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - Fine-Grained Zero-Shot Learning: Advances, Challenges, and Prospects [84.36935309169567]
ゼロショット学習(ZSL)における微粒化解析の最近の進歩を概観する。
まず、各カテゴリの詳細な分析を行い、既存の手法と手法の分類について述べる。
次に、ベンチマークを要約し、公開データセット、モデル、実装、およびライブラリとしての詳細について説明する。
論文 参考訳(メタデータ) (2024-01-31T11:51:24Z) - Machine-assisted quantitizing designs: augmenting humanities and social sciences with artificial intelligence [0.0]
大規模言語モデル(LLM)は、人文科学や社会科学におけるデータ分析をスケールアップする前例のない機会であることが示された。
設計原則を定量化し、変換し、言語学から特徴分析し、人間の専門知識と機械のスケーラビリティを透過的に統合する混合手法を構築します。
このアプローチは、1ダース以上のLDM支援ケーススタディで議論され、9つの多様な言語、複数の規律、タスクをカバーしている。
論文 参考訳(メタデータ) (2023-09-24T14:21:50Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。