論文の概要: A Multi-Model Adaptation of Speculative Decoding for Classification
- arxiv url: http://arxiv.org/abs/2503.18076v1
- Date: Sun, 23 Mar 2025 13:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:25.544018
- Title: A Multi-Model Adaptation of Speculative Decoding for Classification
- Title(参考訳): 分類のための投機的復号化の多モデル適応
- Authors: Somnath Roy, Padharthi Sreekar, Srivatsa Narasimha, Anubhav Anand,
- Abstract要約: 本研究では,新たな投機的復号化手法を提案する。
本稿では,最大3つの軽量ワーカーモデルと,より堅牢な1つの判断モデルを用いたマルチモデルフレームワークを提案する。
分析の結果,30億のパラメータを持つボックスインストラクション/チャット微調整作業モデル(以下,3B)の縮小は,より大きな微調整作業モデルに匹敵する判断モデルとの整合性を示すことが示唆された。
- 参考スコア(独自算出の注目度): 0.24466725954625887
- License:
- Abstract: The current study introduces a novel adaptation of speculative decoding, repurposed from generation to classification tasks. We propose a multi-model framework employing up to three lightweight worker models and a single, more robust judge model analogous to draft models and target model, respectively, in speculative decoding. The worker models, tasked with the bulk of the computation, independently predict discrete class labels for a given input. When majority worker models agree on a label, it is accepted as the final label, optimizing efficiency by bypassing the computationally expensive judge model. In cases of disagreement, the judge model intervenes to resolve the label. This approach minimizes redundant computation, leverages the redundancy of multiple workers for confidence, and confines the judge model's role to challenging cases, offering a practical balance of efficiency and accuracy. Our analysis suggests that smaller out of the box instruction/chat finetuned worker models with 3 billion parameters (hereafter, 3B) demonstrate a level of alignment with judge models comparable to that of larger finetuned worker models with 7 billion parameters (hereafter, 7B) across both simple and higher order reasoning tasks. The top performing 3B worker model pair achieve an agreement rate of approximately 80-83% for sentiment and around 50-80% for similar ticket when compared to judge models. Additionally, 3B worker models provide a speedup ranging from 2.8x to 9x relative to the judge models, while 7B worker model combinations achieve a speedup ranging from 1.28x to 0.28x
- Abstract(参考訳): 本研究は,新たな投機的復号化手法を提案する。
本稿では,最大3つの軽量作業者モデルと,投機的復号法において,それぞれドラフトモデルとターゲットモデルに類似した,より堅牢な1つの判断モデルを用いたマルチモデルフレームワークを提案する。
ワーカモデルは、計算の大部分をタスクし、与えられた入力に対して個別のクラスラベルを独立して予測する。
大多数の労働者モデルがラベルに同意すると、計算コストのかかる判断モデルをバイパスすることで効率を最適化し、最終ラベルとして受け入れられる。
不一致の場合、審査員モデルはラベルを解決するために介入する。
このアプローチは冗長な計算を最小化し、複数のワーカーの冗長性を信頼に利用し、審査モデルの役割を困難なケースに限定し、効率と正確性の現実的なバランスを提供する。
我々の分析では、30億のパラメータを持つボックスインストラクション/チャット微調整作業モデル(以下、3B)は、70億のパラメータを持つ大きめの微調整作業モデル(以下、7B)に匹敵する、単純かつ高次の推論タスクに匹敵するレベルの整合性を示す。
トップパフォーマンスの3Bワーカーモデルペアは、センチメントの約80~83%、ジャッジモデルと比較すると、同様のチケットの約50~80%を達成する。
さらに、3Bワーカーモデルは審査モデルと比較して2.8倍から9倍のスピードアップを提供し、7Bワーカーモデルの組み合わせは1.28倍から0.28倍のスピードアップを達成する。
関連論文リスト
- Scaling Inference-Efficient Language Models [3.271571137474847]
モデルアーキテクチャは推論レイテンシに影響を与えており、同じサイズのモデルでは最大3.5倍のレイテンシの差が生じる可能性がある。
我々は、モデルパラメータ数、トレーニングトークンの数、モデルアーキテクチャを共最適化するために、Chinchillaスケーリングの法則を変更します。
我々はMorph-1Bモデルをリリースし、オープンソースモデルと比較して下流タスクの精度を保ちながら、推論遅延を1.8倍改善した。
論文 参考訳(メタデータ) (2025-01-30T03:16:44Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Nudging: Inference-time Alignment via Model Collaboration [18.530367090350605]
我々は,任意のベースモデルを小さなアライメントモデルを用いて推論時に整列するプラグアンドプレイアルゴリズムであるnudgingを提案する。
看護は、アライメントがスタイリスティックトークンの小さなサブセット上でのモデルの振る舞いを主に変えるという最近の発見によって動機付けられている。
3つのモデルファミリーと13のタスクにまたがるヌードの有効性を評価し、推論、一般的な知識、指示追従、安全性ベンチマークについて検討した。
論文 参考訳(メタデータ) (2024-10-11T23:24:38Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - HM3: Heterogeneous Multi-Class Model Merging [0.0]
本研究では,補助ガードレールモデルを単一多機能モデルに統合するためのトレーニングフリーモデルマージ手法について検討する。
異種ラベル空間とマルチクラス分類器をマージする簡単な手法として、異種多クラスモデルマージ(HM3)を提案する。
BERTをベースとしたガードモデルをマージする有望な結果が報告され、その一部はソースモデルよりも平均F1スコア高くなり、推論時間を最大44%削減する。
論文 参考訳(メタデータ) (2024-09-27T22:42:45Z) - BayesBlend: Easy Model Blending using Pseudo-Bayesian Model Averaging, Stacking and Hierarchical Stacking in Python [0.0]
重みを推定し、複数の(ベイジアン)モデルの予測分布をブレンドするために、BayesBlend Pythonパッケージを導入する。
ベイズブレンドは、モデルウェイトを推定するために擬ベイズモデルの平均化、積み重ね、一意的に階層的ベイズ積み重ねを実装している。
ベイズブレンドの保険損失モデリングの例を例に紹介する。
論文 参考訳(メタデータ) (2024-04-30T19:15:33Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - MEGA: Model Stealing via Collaborative Generator-Substitute Networks [4.065949099860426]
近年のデータフリーモデルステイティングメソッドは,実際のクエリの例を使わずに,ターゲットモデルの知識を抽出するために有効であることが示されている。
本稿では,データフリーモデルステーリングフレームワーク(MEGA)を提案する。
以上の結果から,我々の訓練した代替モデルの精度と敵攻撃成功率は,最先端のデータフリーブラックボックス攻撃よりも最大で33%,40%高い値となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-31T09:34:28Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。