論文の概要: Sample Complexity and Representation Ability of Test-time Scaling Paradigms
- arxiv url: http://arxiv.org/abs/2506.05295v2
- Date: Thu, 12 Jun 2025 16:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 13:18:14.121567
- Title: Sample Complexity and Representation Ability of Test-time Scaling Paradigms
- Title(参考訳): テスト時間スケーリングパラダイムのサンプル複雑度と表現能力
- Authors: Baihe Huang, Shanda Li, Tianhao Wu, Yiming Yang, Ameet Talwalkar, Kannan Ramchandran, Michael I. Jordan, Jiantao Jiao,
- Abstract要約: テスト時間スケーリングのパラダイムは、複雑なタスクにおいて、大きな言語モデル(LLM)の能力を向上した。
本稿では, 自己整合性, ベスト・オブ・n$, 自己補正など, 様々なテストタイム戦略のサンプル効率について検討する。
単一のTransformerアーキテクチャは、ユーザクエリに関連する特定のタスクを事前に知ることなく、複数のタスクを確実に解決することができる。
- 参考スコア(独自算出の注目度): 91.34339030453425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling paradigms have significantly advanced the capabilities of large language models (LLMs) on complex tasks. Despite their empirical success, theoretical understanding of the sample efficiency of various test-time strategies -- such as self-consistency, best-of-$n$, and self-correction -- remains limited. In this work, we first establish a separation result between two repeated sampling strategies: self-consistency requires $\Theta(1/\Delta^2)$ samples to produce the correct answer, while best-of-$n$ only needs $\Theta(1/\Delta)$, where $\Delta < 1$ denotes the probability gap between the correct and second most likely answers. Next, we present an expressiveness result for the self-correction approach with verifier feedback: it enables Transformers to simulate online learning over a pool of experts at test time. Therefore, a single Transformer architecture can provably solve multiple tasks without prior knowledge of the specific task associated with a user query, extending the representation theory of Transformers from single-task to multi-task settings. Finally, we empirically validate our theoretical results, demonstrating the practical effectiveness of self-correction methods.
- Abstract(参考訳): テスト時間スケーリングのパラダイムは、複雑なタスクにおける大規模言語モデル(LLM)の機能を大幅に進歩させた。
実証的な成功にもかかわらず、自己整合性、n$のベスト、自己補正など、様々なテストタイム戦略のサンプル効率に関する理論的理解は依然として限られている。
自己整合性は正しい答えを生成するために$\Theta(1/\Delta^2)$サンプルを必要とするが、 best-of-n$は$\Theta(1/\Delta)$のみを必要とする。
次に、検証者フィードバックによる自己補正手法の表現性結果を示す。これは、Transformerがテスト時に専門家のプール上でオンライン学習をシミュレートすることを可能にする。
したがって、1つのTransformerアーキテクチャは、ユーザクエリに関連する特定のタスクを事前に知ることなく、複数のタスクを確実に解決することができ、Transformerの表現理論をシングルタスクからマルチタスク設定に拡張することができる。
最後に, 自己補正法の有効性を実証し, 理論的結果を実証的に検証した。
関連論文リスト
- Learning Compositional Functions with Transformers from Easy-to-Hard Data [63.96562216704653]
我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。
この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文 参考訳(メタデータ) (2025-05-29T17:22:00Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Sampling Foundational Transformer: A Theoretical Perspective [12.7600763629179]
本稿では,複数のデータモダリティを扱える基本サンプリング変換器(SFT)を提案する。
SFTは多くのベンチマークで競合する結果を得たが、他の非常に特殊なモデルに比べて推論が速い。
論文 参考訳(メタデータ) (2024-08-11T16:53:09Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Semantic Self-adaptation: Enhancing Generalization with a Single Sample [45.111358665370524]
セマンティックセグメンテーションのための自己適応型アプローチを提案する。
整合正則化を用いて畳み込み層のパラメータを入力画像に微調整する。
実験により, 自己適応は訓練時のモデル正規化の確立した実践を補完する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T12:29:01Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - Laplacian Regularized Few-Shot Learning [35.381119443377195]
少数ショットタスクに対するラプラシアン正規化推論を提案する。
私たちの推論はベースモデルを再トレーニングするものではなく、クエリセットのグラフクラスタリングとして見ることができます。
我々のLaplacianShotは、異なるモデル間で大きなマージンで最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2020-06-28T02:17:52Z) - A conditional one-output likelihood formulation for multitask Gaussian
processes [0.0]
マルチタスクガウス過程(MTGP)は多出力回帰問題に対するガウスプロセスフレームワークの解である。
本稿では,マルチタスク学習を簡略化する新しい手法を提案する。
現状の美術品と計算的に競合していることが示される。
論文 参考訳(メタデータ) (2020-06-05T14:59:06Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。