Fugu-MT 論文翻訳(概要): On the Effect of Sampling Diversity in Scaling LLM Inference

論文の概要: On the Effect of Sampling Diversity in Scaling LLM Inference

arxiv url: http://arxiv.org/abs/2502.11027v3
Date: Thu, 02 Oct 2025 22:27:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 14:21:29.68075
Title: On the Effect of Sampling Diversity in Scaling LLM Inference
Title（参考訳）: スケーリングLDM推論における多様性サンプリングの効果について
Authors: Tianchun Wang, Zichuan Liu, Yuanzhou Chen, Jonathan Light, Weiyang Liu, Haifeng Chen, Xiang Zhang, Wei Cheng,
Abstract要約: 大規模言語モデル(LLM)のスケーリング推論は、パフォーマンス向上の鍵となる。解の精度と応答の有意な多様性の関係から,スケーリング推論における急激な多様性の効果を体系的に研究した。また,Best-of-N$選択後の有意義な多様なプロンプトから生成した応答は,定常的なプロンプトから生成した応答よりも有意に低い値を示した。
参考スコア（独自算出の注目度）: 57.31028064284527
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model (LLM) scaling inference is key to unlocking greater performance, and leveraging diversity has proven an effective way to enhance it. Motivated by the observed relationship between solution accuracy and meaningful response diversity, we systematically study the effect of prompt diversity in scaling inference. We theoretically explain why diversified sampling improves Best-of-$N$ scaling, showing that responses generated from meaningful diverse prompts after Best-of-$N$ selection exhibit significantly lower error rates than those produced from stationary prompts. To promote solution diversity, we analyze perturbation fidelity and show that moderately relevant perturbations improve performance, providing guidance for effective perturbation design. Further, we present a set of effective perturbations, including task-level and query-level ones, and analyze the conditions under which they succeed. We systematically evaluate diversified sampling across tasks, finding relative gains of 10.8% in EM@100 for reasoning, 9.6% for mathematics, and 9.5% in Pass@100 for code generation.
Abstract（参考訳）: 大規模言語モデル(LLM)のスケーリング推論は、より大きなパフォーマンスを解放するための鍵であり、多様性を活用することが、それを強化する効果的な方法であることが証明されている。解の精度と応答の有意な多様性の関係から,スケーリング推論における急激な多様性の効果を体系的に研究した。分散サンプリングがBest-of-N$スケーリングを改善する理由を理論的に説明し、Best-of-N$選択後の有意義な多様なプロンプトから発生する応答が定常的なプロンプトから生成されるものよりも有意に低いことを示す。解の多様性を促進するために、摂動の忠実度を分析し、適度に関連する摂動が性能を向上させることを示し、効果的な摂動設計のためのガイダンスを提供する。さらに、タスクレベルとクエリレベルを含む効果的な摂動のセットを示し、それらが成功する条件を分析する。我々は,タスクごとの多様なサンプリングを体系的に評価し,EM@100の相対的なゲインが10.8%,数学が9.6%,コード生成が9.5%であった。

関連論文リスト

Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
Semantic uncertainty in advanced decoding methods for LLM generation [35.31962554915952]
本研究では,大規模言語モデル(LLM)における意味的不確実性について検討した。モデル出力の多様性と信頼性の両方に異なる復号戦略がどう影響するかを分析する。
論文参考訳（メタデータ） (2025-06-17T10:09:29Z)
Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文参考訳（メタデータ） (2025-01-15T04:09:21Z)
Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文参考訳（メタデータ） (2024-11-26T00:15:37Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。 TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文参考訳（メタデータ） (2024-10-02T18:17:54Z)
Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文参考訳（メタデータ） (2024-08-25T04:07:18Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文参考訳（メタデータ） (2023-05-05T15:33:39Z)
Adaptive Meta-learner via Gradient Similarity for Few-shot Text Classification [11.035878821365149]
本稿では, モデル一般化能力の向上を図るため, 適応型メタラーナをグラディエント類似性(AMGS)を介して提案する。いくつかのベンチマークによる実験結果から,提案したAMGSは連続的にテキスト分類性能を向上することが示された。
論文参考訳（メタデータ） (2022-09-10T16:14:53Z)
Robust Topology Optimization Using Multi-Fidelity Variational Autoencoders [1.0124625066746595]
強靭なトポロジー最適化(RTO)問題は、最高の平均性能を持つ設計を特定する。計算効率を向上するニューラルネットワーク手法を提案する。本手法の数値解析は,Lブラケット構造のロバスト設計における単一点負荷と複数点負荷について述べる。
論文参考訳（メタデータ） (2021-07-19T20:40:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。