論文の概要: When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling
- arxiv url: http://arxiv.org/abs/2510.15346v1
- Date: Fri, 17 Oct 2025 06:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.492635
- Title: When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling
- Title(参考訳): 組立のタイミング:安定かつ高速なLCM組立のためのToken-Level Pointsの同定
- Authors: Heecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang,
- Abstract要約: 本研究では,従来のアンサンブル法を長文生成に用いた場合,アンサンブル位置を慎重に選択する必要があることを示す。
我々は,これらの要因を共同で検討し,選択的にアンサンブルするフレームワークSAFE(Stable and Fast LLM Ensembling)を提案する。
MATH500 や BBH などの多種多様なベンチマーク実験により,SAFE は既存の手法よりも精度と効率が優れていることを示した。
- 参考スコア(独自算出の注目度): 41.54273937469359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensembling Large Language Models (LLMs) has gained attention as a promising approach to surpass the performance of individual models by leveraging their complementary strengths. In particular, aggregating models' next-token probability distributions to select the next token has been shown to be effective in various tasks. However, while successful for short-form answers, its application to long-form generation remains underexplored. In this paper, we show that using existing ensemble methods in long-form generation requires a careful choice of ensembling positions, since the standard practice of ensembling at every token often degrades performance. We identify two key factors for determining these positions: tokenization mismatch across models and consensus in their next-token probability distributions. Based on this, we propose SAFE, (Stable And Fast LLM Ensembling), a framework that selectively ensembles by jointly considering these factors. To further improve stability, we introduce a probability sharpening strategy that consolidates probabilities spread across multiple sub-word tokens representing the same word into a single representative token. Our experiments on diverse benchmarks, including MATH500 and BBH, demonstrate that SAFE outperforms existing methods in both accuracy and efficiency, with gains achieved even when ensembling fewer than 1% of tokens.
- Abstract(参考訳): LLM(Ensembling Large Language Models)は,個々のモデルの性能を相補的な強みを利用して超越する,有望なアプローチとして注目されている。
特に、次のトークンを選択するためにモデルの次の確率分布を集約することは、様々なタスクで有効であることが示されている。
しかし、短文の解答に成功しながらも、長文生成への応用は未定のままである。
本稿では,従来のアンサンブル法を長文生成に使用する場合,各トークンにおけるアンサンブルの標準的な手法が性能を劣化させるため,適切なアンサンブル位置を選択する必要があることを示す。
モデル間でのトークン化ミスマッチと、次の確率分布におけるコンセンサスである。
そこで我々は,これらの要因を共同で検討し,選択的にアンサンブルするフレームワークSAFE(Stable and Fast LLM Ensembling)を提案する。
安定性をさらに向上するために,同じ単語を表す複数のサブワードトークンにまたがる確率を単一の代表トークンに集約する確率短縮戦略を導入する。
MATH500 や BBH などの多種多様なベンチマーク実験により,SAFE は既存の手法よりも精度と効率が優れており,トークンの1% 未満の場合にも利得が得られることを示した。
関連論文リスト
- D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models [91.21455683212224]
大規模言語モデル(LLMs)では、次の情報の関連性確率は、次の製品の関連性確率に関連付けられる。
しかし、きめ細かいサンプリング確率がタスク要求に忠実に適合するかどうかは未解決の問題だ。
P_tokenが大きなステップ・ツー・ステップの変動を示し、P_taskとの整合性が低いDモデルと、P_tokenがより安定してP_taskに整合するEモデルである。
論文 参考訳(メタデータ) (2026-01-25T14:59:09Z) - Random-Set Large Language Models [4.308457163593758]
大規模言語モデル(LLM)は、クエリに対する非常に高品質なテストとレスポンスを生成することで知られています。
しかし、この生成されたテキストはいくら信用できますか?
本稿では,トークン空間上の有限ランダム集合(関数)を予測するランダムセット大言語モデル(RSLLM)を提案する。
論文 参考訳(メタデータ) (2025-04-25T05:25:27Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling [3.873482175367558]
本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。
実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-18T13:17:26Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。