論文の概要: Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation
- arxiv url: http://arxiv.org/abs/2410.02725v1
- Date: Thu, 3 Oct 2024 17:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 01:13:18.753361
- Title: Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation
- Title(参考訳): 適応型推論時間計算: LLMは、中間世代でも、より良くできると予測できる
- Authors: Rohin Manvi, Anikait Singh, Stefano Ermon,
- Abstract要約: 本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
- 参考スコア(独自算出の注目度): 51.127054971591924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time computation is a powerful paradigm to enhance the performance of large language models (LLMs), with Best-of-N sampling being a widely used technique. However, this method is computationally expensive, requiring both (1) an external reward model and (2) the generation of multiple samples. In this work, we introduce a new generative self-evaluation scheme designed to adaptively reduce the number of generated samples while maintaining or even improving performance. We use a generative reward model formulation, allowing the LLM to predict mid-generation the probability that restarting the generation will yield a better response. These predictions are obtained without an external reward model and can be used to decide whether or not to generate more samples, prune unpromising samples early on, or to pick the best sample. This capability is very inexpensive as it involves generating a single predefined token. Trained using a dataset constructed with real unfiltered LMSYS user prompts, Llama 3.1 8B's win rate against GPT-4 on AlpacaEval increases from 21% to 34% with 16 samples and math performance on GSM8K improves from 84% to 91%. By sampling only when the LLM determines that it is beneficial to do so and adaptively adjusting temperature annealing, we demonstrate that 74% of the improvement from using 16 samples can be achieved with only 1.2 samples on average. We further demonstrate that 50-75% of samples can be pruned early in generation with minimal degradation in performance. Overall, our methods enable more efficient and scalable compute utilization during inference for LLMs.
- Abstract(参考訳): 推測時間計算は大規模言語モデル(LLM)の性能を高めるための強力なパラダイムであり、Best-of-Nサンプリングは広く使われている手法である。
しかし、この方法は計算コストが高く、(1)外部報酬モデルと(2)複数のサンプルの生成の両方を必要とする。
そこで本研究では, 性能の維持や改善を図りつつ, 生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
我々は、生成的報酬モデル定式化を用いて、LLMが中間世代で生成を再起動する確率を予測できるようにし、より良い応答をもたらす。
これらの予測は、外部の報酬モデルなしで得られ、より多くのサンプルを生成するか、早期に未生産のサンプルを選択するか、最高のサンプルを選択するかを決定するのに使うことができる。
この機能は、単一の事前定義されたトークンを生成するため、非常に安価である。
Llama 3.1 8B の AlpacaEval での GPT-4 に対する勝利率は 21% から 34% に増加し、16 のサンプルと GSM8K の数学性能は 84% から 91% に改善された。
LLMがそれを行うのが有益であると判断し、温度アニールを適応的に調整した場合にのみサンプリングを行うことで、平均1.2サンプルで16サンプルの使用による改善の74%が達成できることを示した。
さらに,50~75%の試料を,性能の低下を最小限に抑えつつ,早期に精製できることを実証した。
全体として,本手法はLLMの推論において,より効率的でスケーラブルな計算利用を可能にする。
関連論文リスト
- Sampling in CMA-ES: Low Numbers of Low Discrepancy Points [0.0]
低差点の小さい固定集合を反復することで、デフォルトの均一分布よりも優れた性能が得られることを示す。
より低次元の場合、32個の特異な差分点を用いると、一様サンプリングよりも近いあるいは良い結果が得られる。
論文 参考訳(メタデータ) (2024-09-24T10:04:55Z) - ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は、人間の命令を理解し、コードを生成するのに優れた性能を示した。
我々は,ITERTLという,シンプルながら効果的な反復訓練パラダイムを導入する。
提案手法によってトレーニングされたモデルは、最先端のオープンソースモデル(SOTA)と競合し、さらに優れていることを示す。
論文 参考訳(メタデータ) (2024-06-28T01:44:57Z) - Priority Sampling of Large Language Models for Compilers [4.2266182821287135]
プライオリティサンプリングは、モデルの信頼性によって順序付けられたユニークなサンプルを生成する、単純で決定論的サンプリング技術である。
正規表現に基づいた生成をサポートし、制御可能で構造化された探索プロセスを提供する。
これは、オリジナルのモデルのトレーニングのためにラベルの生成に使用するオートチューニングを、わずか30のサンプルで上回っている。
論文 参考訳(メタデータ) (2024-02-28T22:27:49Z) - Enhancing Sample Utilization through Sample Adaptive Augmentation in
Semi-Supervised Learning [47.677929366323596]
半教師付き学習では、ラベルなしサンプルは拡張と一貫性の正則化によって利用することができる。
既存のSSLモデルは、単純なサンプルの特徴を見落とし、すべてのサンプルに同じ学習戦略を適用するだけです。
そこで本研究では, より多様な方法で, サンプル適応増強(SAA)を提案し, ナイーブサンプルに注意を向ける。
論文 参考訳(メタデータ) (2023-09-07T09:50:45Z) - Entropy-based Training Methods for Scalable Neural Implicit Sampler [15.978655106034113]
非正規化対象分布からの効率的なサンプリングは、科学計算と機械学習の基本的な問題である。
本稿では,これらの制約を克服する,効率的でスケーラブルなニューラル暗黙サンプリング手法を提案する。
提案手法では, 提案手法を応用して, 提案手法を用いることにより, 精度の低い大量のサンプルを生成できる。
論文 参考訳(メタデータ) (2023-06-08T05:56:05Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - ReSmooth: Detecting and Utilizing OOD Samples when Training with Data
Augmentation [57.38418881020046]
最近のDA技術は、常に強化トレーニングサンプルの多様性の必要性を満たす。
多様性の高い増分戦略は、通常、アウト・オブ・ディストリビューション(OOD)の増分サンプルを導入する。
ReSmoothは、まず、拡張サンプル中のOODサンプルを検知し、それらを活用するフレームワークである。
論文 参考訳(メタデータ) (2022-05-25T09:29:27Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - Reparameterized Sampling for Generative Adversarial Networks [71.30132908130581]
本稿では,マルコフ連鎖をジェネレータの潜在空間に再配置することで,一般依存型提案を可能にする新しいサンプリング手法REP-GANを提案する。
実験的な実験により、我々のREP-GANはサンプル効率を大幅に改善し、同時により良いサンプル品質を得ることを示した。
論文 参考訳(メタデータ) (2021-07-01T10:34:55Z) - Sampling-Decomposable Generative Adversarial Recommender [84.05894139540048]
サンプル分解可能な生成逆数レコメンダ(SD-GAR)を提案する。
本フレームワークでは, 自己正規化重要度サンプリングにより, 生成元と最適値とのばらつきを補償する。
提案アルゴリズムを5つの実世界のレコメンデーションデータセットを用いて広範囲に評価する。
論文 参考訳(メタデータ) (2020-11-02T13:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。