論文の概要: More Bang for the Buck: Improving the Inference of Large Language Models at a Fixed Budget using Reset and Discard (ReD)
- arxiv url: http://arxiv.org/abs/2601.21522v1
- Date: Thu, 29 Jan 2026 10:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.738334
- Title: More Bang for the Buck: Improving the Inference of Large Language Models at a Fixed Budget using Reset and Discard (ReD)
- Title(参考訳): Reset and Discard (ReD) を用いた固定予算における大規模言語モデルの推論の改善
- Authors: Sagi Meir, Tommer D. Keidar, Noam Levi, Shlomi Reuveni, Barak Hirshberg,
- Abstract要約: 大規模言語モデル(LLM)に対するReset-and-Discard(ReD)クエリ手法を提案する。
ReDは、望まれるカバレッジに到達するために必要な試みやトークン、USDコストを大幅に削減することを示す。
- 参考スコア(独自算出の注目度): 1.739856067884508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of large language models (LLMs) on verifiable tasks is usually measured by pass@k, the probability of answering a question correctly at least once in k trials. At a fixed budget, a more suitable metric is coverage@cost, the average number of unique questions answered as a function of the total number of attempts. We connect the two metrics and show that the empirically-observed power-law behavior in pass@k leads to a sublinear growth of the coverage@cost (diminishing returns). To solve this problem, we propose Reset-and-Discard (ReD), a query method of LLMs that increases coverage@cost for any given budget, regardless of the pass@k form. Moreover, given a pass@k, we can quantitatively predict the savings in the total number of attempts using ReD. If pass@k is not available for the model, ReD can infer its power-law exponent. Experiments on three LLMs using HumanEval demonstrate that ReD substantially reduces the required attempts, tokens, and USD cost to reach a desired coverage, while also offering an efficient way to measure inference power-laws.
- Abstract(参考訳): 検証可能なタスクに対する大規模言語モデル(LLM)の性能は、通常pass@kによって測定される。
固定された予算では、より適切なメトリクスは coverage@ Cost であり、試行回数の関数として答えられるユニークな質問の平均数である。
私たちはこの2つの指標を結合し、pass@kの実証的に観測されたパワーローの振る舞いが、 coverage@ Cost(最小化リターン)のサブ線形成長につながることを示す。
この問題を解決するために、我々は、Reset-and-Discard (ReD) を提案する。これは LLM のクエリ手法で、pass@k 形式によらず、任意の予算に対するカバレッジ@コストを増大させる。
さらに、pass@k が与えられた場合、ReD を用いた試行回数の削減を定量的に予測できる。
pass@kがモデルで利用できない場合、ReDはそのパワーロー指数を推測することができる。
HumanEval を用いた3つの LLM の実験では、ReD は所望のカバレッジに達するために必要な試行、トークン、USD コストを大幅に削減し、推論のパワーローを測定する効率的な方法を提供する。
関連論文リスト
- Efficient Evaluation of LLM Performance with Statistical Guarantees [11.703733256169214]
大規模言語モデルのベンチマークのためのFAQ(Factized Active Querying)を提案する。
FAQは、ハイブリッド分散推論/アクティブラーニングサンプリングポリシーを用いて、質問を適応的に選択する。
FAQは、2つのベンチマークスイートの強いベースラインよりも、有効サンプルサイズが5倍に向上する。
論文 参考訳(メタデータ) (2026-01-28T04:59:20Z) - Inference Scaling for Bridging Retrieval and Augmented Generation [47.091086803980765]
大規模言語モデル(LLM)の出力を操る一般的なアプローチとして、検索拡張世代(RAG)が登場している。
このようなバイアスは、推論スケーリングから、検索されたコンテキストの置換順序からの推論呼び出しの集約まで緩和可能であることを示す。
ROUGE-L は MS MARCO で,EM は HotpotQA ベンチマークで 7 ポイント向上した。
論文 参考訳(メタデータ) (2024-12-14T05:06:43Z) - A Voter-Based Stochastic Rejection-Method Framework for Asymptotically Safe Language Model Outputs [0.0]
本稿では,LLMの安全性を活用して,安全でない,あるいは低品質な大規模言語モデル(LLM)の出力を防止する手法を提案する。
このシステムでは、LCMチェッカーが生成した出力の受理性に投票し、不承認のしきい値に達すると再生する。
論文 参考訳(メタデータ) (2024-07-24T04:27:55Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。