論文の概要: Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
- arxiv url: http://arxiv.org/abs/2502.01839v1
- Date: Mon, 03 Feb 2025 21:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:49.340898
- Title: Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
- Title(参考訳): サンプル, Scrutinize, Scale:スケーリング検証による効果的な推論時間探索
- Authors: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi,
- Abstract要約: 本研究では,サンプリングに基づく探索を規定するスケーリング傾向について検討する。
ランダムサンプリングと直接自己検証のみを用いる最小限の実装を単純にスケールアップするだけで、パフォーマンスが持続的に向上することがわかった。
テスト時間計算で自己検証能力を改善するための2つの有用な原則を同定する。
- 参考スコア(独自算出の注目度): 35.347715518778095
- License:
- Abstract: Sampling-based search, a simple paradigm for utilizing test-time compute, involves generating multiple candidate responses and selecting the best one -- typically by verifying each response for correctness. In this paper, we study the scaling trends governing sampling-based search. Among our findings is that simply scaling up a minimalist implementation that uses only random sampling and direct self-verification results in sustained performance improvements that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities past that of o1-Preview on popular benchmarks. We partially attribute the scalability of sampling-based search to a phenomenon of implicit scaling, where sampling a larger pool of responses in turn improves verification accuracy. We further identify two useful principles for improving self-verification capabilities with test-time compute: (1) comparing across responses provides helpful signals about the locations of errors and hallucinations, and (2) different model output styles are useful for different contexts -- chains of thought are useful for reasoning but harder to verify. We also find that, though accurate verification can be elicited, frontier models demonstrate remarkably weak out-of-box verification capabilities and introduce a benchmark to measure progress on these deficiencies.
- Abstract(参考訳): サンプリングベースの検索は、テスト時間計算を利用するためのシンプルなパラダイムであり、複数の候補応答を生成し、最適な応答を選択する。
本稿では,サンプリングベースサーチを規定するスケーリング傾向について検討する。
我々の発見の中では、ランダムサンプリングと直接自己検証のみを使用するミニマリスト実装を単純にスケールアップするだけで、持続的なパフォーマンス改善を実現でき、例えば、人気のあるベンチマークのo1-PreviewよりもGemini v1.5 Proモデルの推論能力を高めることができる。
我々は,サンプリングベース検索のスケーラビリティを暗黙のスケーリング現象とみなし,より大きな応答プールをサンプリングすることで,検証精度を向上する。
1) 反応を比較することで、エラーや幻覚の位置に関する有益なシグナルが得られ、(2) 異なるモデルのアウトプットスタイルは異なるコンテキストに役立ちます。
また、正確な検証は可能であるが、フロンティアモデルでは、ボックス外検証能力が著しく弱いことが示され、これらの欠陥の進捗を計測するためのベンチマークが導入されている。
関連論文リスト
- Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z) - POODLE: Improving Few-shot Learning via Penalizing Out-of-Distribution
Samples [19.311470287767385]
そこで本研究では,対象クラス外からのラベル付きサンプルの配布外サンプルを用いて,数発の学習を改善することを提案する。
提案手法は, 実装が簡単で, 特徴抽出器に非依存であり, 事前学習に要する追加コストを伴わず軽量であり, インダクティブ設定とトランスダクティブ設定の両方に適用可能である。
論文 参考訳(メタデータ) (2022-06-08T18:59:21Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Toward Scalable and Unified Example-based Explanation and Outlier
Detection [128.23117182137418]
我々は,試行錯誤の予測に例ベースの説明を与えることのできる,プロトタイプベースの学生ネットワークのより広範な採用を論じる。
類似カーネル以外のプロトタイプベースのネットワークは,分類精度を損なうことなく,有意義な説明と有望な外乱検出結果が得られることを示す。
論文 参考訳(メタデータ) (2020-11-11T05:58:17Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z) - Learning a Unified Sample Weighting Network for Object Detection [113.98404690619982]
地域サンプリングや重み付けは、現代の地域ベースの物体検出器の成功に極めて重要である。
サンプル重み付けはデータ依存でタスク依存であるべきだと我々は主張する。
サンプルのタスク重みを予測するための統一的なサンプル重み付けネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-11T16:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。