Fugu-MT 論文翻訳(概要): AutoJudge: Judge Decoding Without Manual Annotation

論文の概要: AutoJudge: Judge Decoding Without Manual Annotation

arxiv url: http://arxiv.org/abs/2504.20039v1
Date: Mon, 28 Apr 2025 17:59:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.551157
Title: AutoJudge: Judge Decoding Without Manual Annotation
Title（参考訳）: AutoJudge: 手動アノテーションなしでデコードする裁判官
Authors: Roman Garipov, Fedor Velikonivtsev, Ruslan Svirschevski, Vage Egiazarian, Max Ryabinin,
Abstract要約: AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化するフレームワークである。ターゲットモデルとドラフトモデルのミスマッチのどれを修正すべきかを,半グレディ探索アルゴリズムを用いて検証する。次に、既存のLLM埋め込みに基づいて軽量な分類器をトレーニングし、推論時にトークンのミスマッチを安全に受け入れることができるように予測する。
参考スコア（独自算出の注目度）: 10.411318392966358
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce AutoJudge, a framework that accelerates large language model (LLM) inference with task-specific lossy speculative decoding. Instead of matching the original model output distribution token-by-token, we identify which of the generated tokens affect the downstream quality of the generated response, relaxing the guarantee so that the "unimportant" tokens can be generated faster. Our approach relies on a semi-greedy search algorithm to test which of the mismatches between target and draft model should be corrected to preserve quality, and which ones may be skipped. We then train a lightweight classifier based on existing LLM embeddings to predict, at inference time, which mismatching tokens can be safely accepted without compromising the final answer quality. We test our approach with Llama 3.2 1B (draft) and Llama 3.1 8B (target) models on zero-shot GSM8K reasoning, where it achieves up to 1.5x more accepted tokens per verification cycle with under 1% degradation in answer accuracy compared to standard speculative decoding and over 2x with small loss in accuracy. When applied to the LiveCodeBench benchmark, our approach automatically detects other, programming-specific important tokens and shows similar speedups, demonstrating its ability to generalize across tasks.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化するフレームワークであるAutoJudgeを紹介する。生成したトークンのどれが生成した応答の下流品質に影響するかを特定し、保証を緩和し、"重要でない"トークンを高速に生成できるようにします。提案手法は,ターゲットモデルとドラフトモデルのミスマッチのどれを修正して品質を保ち,どれをスキップすべきかを半グレーディ検索アルゴリズムを用いて検証する。次に、既存のLCM埋め込みに基づいて軽量な分類器をトレーニングし、最終的な応答品質を損なうことなく、トークンのミスマッチが安全に受け入れられる予測を行う。我々は,ゼロショットGSM8K推論におけるLlama 3.2 1B(ドラフト)とLlama 3.1 8B(ターゲット)モデルを用いて,標準投機復号法と比較して1%未満の精度で検証サイクルあたり1.5倍のトークンを許容し,精度が低い2倍以上まで精度が低下することを示す。 LiveCodeBenchベンチマークに適用すると,プログラム固有の重要なトークンを自動的に検出し,同様のスピードアップを示す。

関連論文リスト

Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Towards Better Code Generation: Adaptive Decoding with Uncertainty Guidance [28.99265405319943]
我々はShannon Entropyを介して定量化されたトークンレベルの不確実性によって導かれる適応デコードフレームワークであるAdaDecを紹介する。 AdaDecは従来のビームサーチよりも15.5%の精度向上を実現している。
論文参考訳（メタデータ） (2025-06-10T16:49:46Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文参考訳（メタデータ） (2025-03-07T08:41:53Z)
GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。 LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文参考訳（メタデータ） (2025-02-16T07:06:00Z)
Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment [25.988070517700848]
自己回帰生成を高速化する手法として投機的復号法が提案されている。 GPT-4oのような強力なドラフトモデルであっても、人間のテキストは高い受け入れ率を達成できないことを示す。私たちは、正しいが一致しない応答を認識するために、検証に適応できるだろうか?
論文参考訳（メタデータ） (2025-01-31T17:09:53Z)
Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation [43.09801987385207]
対照的に、CLIP(Contrastive Language- Image Pretraining)は、一般化可能な画像表現の学習において優れているが、特定のデータセットのゼロショット推論では不足することが多い。テスト時間適応(TTA)は、正規化レイヤやコンテキストプロンプトなどのコンポーネントを調整することでこの問題を軽減するが、通常は大きなバッチサイズと広範な拡張を必要とする。本稿では,TCA(Token Condensation as Adaptation)を提案する。
論文参考訳（メタデータ） (2024-10-16T07:13:35Z)
Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文参考訳（メタデータ） (2024-10-11T23:30:42Z)
SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens [4.5888031410244885]
意味適応トークン(SDSAT)を用いた投機的復号化による大規模言語モデル(LLM)の高速化手法を提案する。この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。 CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。
論文参考訳（メタデータ） (2024-03-27T14:54:27Z)
Block Verification Accelerates Speculative Decoding [23.764655044837113]
投機的復号法は高速モデルを用いて、ターゲットモデルによって並列に検証されるトークンのブロックをドラフトする。以前の作業では、ドラフト検証は独立してトークン・バイ・トークンで行われる。ブロック全体を共同で検証する単純なドラフト検証アルゴリズムであるBlock Verificationを提案する。
論文参考訳（メタデータ） (2024-03-15T16:28:22Z)
Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文参考訳（メタデータ） (2023-12-04T18:58:40Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech Recognition [49.42732949233184]
ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-08-12T12:13:52Z)
Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。任意の関数に対するランダム化スムージングの統一的なビューを示す。本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文参考訳（メタデータ） (2020-02-07T21:28:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。