論文の概要: Keep Guessing? When Considering Inference Scaling, Mind the Baselines
- arxiv url: http://arxiv.org/abs/2410.15466v1
- Date: Sun, 20 Oct 2024 18:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:23.337753
- Title: Keep Guessing? When Considering Inference Scaling, Mind the Baselines
- Title(参考訳): ガイダンスを継続する? 推論のスケーリングを考えるとき、ベースラインを意識する
- Authors: Gal Yona, Or Honovich, Omer Levy, Roee Aharoni,
- Abstract要約: 大規模言語モデルにおける推論計算のスケーリングは、サンプルの数が増えるにつれて、常にカバレッジ(問題解決の限界)を増大させる。
我々は、この観察された改善は、標準評価ベンチマークの回答分布が比較的小さな共通回答の集合に傾いていることによるものであると推測する。
- 参考スコア(独自算出の注目度): 45.21178011740911
- License:
- Abstract: Scaling inference compute in large language models (LLMs) through repeated sampling consistently increases the coverage (fraction of problems solved) as the number of samples increases. We conjecture that this observed improvement is partially due to the answer distribution of standard evaluation benchmarks, which is skewed towards a relatively small set of common answers. To test this conjecture, we define a baseline that enumerates answers according to their prevalence in the training set. Experiments spanning two domains -- mathematical reasoning and factual knowledge -- reveal that this baseline outperforms repeated model sampling for some LLMs, while the coverage for others is on par with that of a mixture strategy that obtains $k$ answers by using only $10$ model samples and similarly guessing the remaining $k-10$ attempts via enumeration. Our baseline enables a more accurate measurement of how much repeated sampling improves coverage in such settings beyond prompt-agnostic guessing.
- Abstract(参考訳): 大規模言語モデル (LLM) における反復サンプリングによる推論計算のスケーリングは、サンプルの数が増えるにつれて、常にカバー範囲(問題の分断)を増大させる。
我々は、この観察された改善は、標準評価ベンチマークの回答分布が比較的小さな共通回答の集合に傾いていることによるものであると推測する。
この予想をテストするために、トレーニングセットにおける回答の頻度に応じて答えを列挙するベースラインを定義する。
数学的推論と事実知識という2つの領域にまたがる実験は、このベースラインがいくつかのLSMの繰り返しモデルサンプリングよりも優れており、他の領域のカバレッジは、10ドルモデルサンプルのみを使用して、そして同様に、列挙による残りの$k-10$試行を推測する混合戦略と同等であることを示している。
本研究のベースラインは, 繰り返しサンプリングが, 即時予測以上の範囲で, どれだけの頻度でカバー範囲を向上するかを, より正確に測定することを可能にする。
関連論文リスト
- Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。
すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。
多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Collapsed Inference for Bayesian Deep Learning [36.1725075097107]
本稿では,崩壊サンプルを用いたベイズモデル平均化を行う新しい崩壊予測手法を提案する。
崩壊したサンプルは、近似後部から引き出された数え切れないほど多くのモデルを表す。
提案手法は, スケーラビリティと精度のバランスをとる。
論文 参考訳(メタデータ) (2023-06-16T08:34:42Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - Learning with Comparison Feedback: Online Estimation of Sample
Statistics [2.7158841992922875]
本研究では,無作為な雑音ではなく非確率的にフィードバックが生成される雑音二分探索問題のオンライン版について検討する。
我々は、整数の逆対数列の中央値の正確な推定を維持する。
論文 参考訳(メタデータ) (2021-01-11T20:28:32Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Multinomial Sampling for Hierarchical Change-Point Detection [0.0]
本稿では,検出率を向上し,遅延を低減する多項サンプリング手法を提案する。
実験の結果, 基準法よりも優れた結果が得られ, また, 人間の行動研究を指向した事例も提示した。
論文 参考訳(メタデータ) (2020-07-24T09:18:17Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - Learning Entangled Single-Sample Distributions via Iterative Trimming [28.839136703139225]
そこで本研究では, 反復トリミング標本に基づいて, 簡便かつ効率的な手法を解析し, トリミング標本集合上のパラメータを再推定する。
対数反復法では, 誤差が$lceil alpha n rceil$-th ノイズ点の雑音レベルにのみ依存する推定値が出力されることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。