論文の概要: Beyond Static Cutoffs: One-Shot Dynamic Thresholding for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2511.02077v1
- Date: Mon, 03 Nov 2025 21:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.687456
- Title: Beyond Static Cutoffs: One-Shot Dynamic Thresholding for Diffusion Language Models
- Title(参考訳): 静的カットオフを超えて:拡散言語モデルのためのワンショット動的閾値
- Authors: Jucheng Shen, Yeonju Ro,
- Abstract要約: One-Shot Dynamic Thresholding (OSDT)は、単一シーケンス上のしきい値を校正し、無視可能なオーバーヘッドを持つその後の入力に適用する。
この結果から,より汎用的なアルゴリズムやシステム革新の拡散復号化のために,タスクレベルの信頼署名を活用できる幅広い機会が示唆された。
- 参考スコア(独自算出の注目度): 3.4202631641965238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion language models (MDLMs) are becoming competitive with their autoregressive counterparts but typically decode with fixed steps and sequential unmasking. To accelerate decoding, recent work such as Fast-dLLM enables parallel decoding via a static global confidence threshold, yet we observe strong block- and step-wise confidence fluctuations and, within a dataset, near-identical confidence trajectories across inputs as measured by cosine similarity. Motivated by these observations, we introduce One-Shot Dynamic Thresholding (OSDT), which calibrates thresholds on a single sequence and applies them to subsequent inputs with negligible overhead. On GPQA, GSM8K, and HumanEval, OSDT attains superior accuracy-throughput trade-offs (+24% tokens/s on GSM8K at the best accuracy, +45% on GPQA with comparable accuracy, and +50% on HumanEval with a modest accuracy gap). Beyond these results, our findings suggest broader opportunities to leverage reusable task-level confidence signatures for more general-purpose algorithmic and systems innovations in diffusion decoding.
- Abstract(参考訳): 仮面拡散言語モデル(MDLM)は自己回帰言語と競合するが、通常は固定ステップとシーケンシャルアンマスクでデコードされる。
復号化を加速するために、Fast-dLLMのような最近の研究は、静的な大域的信頼しきい値による並列復号を可能にするが、強いブロックおよびステップワイドな信頼揺らぎを観測し、データセット内では、コサイン類似性によって測定された入力間のほぼ同一の信頼軌道を観測する。
これらの観測により、単一シーケンス上のしきい値を校正し、無視できないオーバーヘッドでその後の入力に適用するOne-Shot Dynamic Thresholding (OSDT)を導入する。
GPQA、GSM8K、HumanEvalでは、OSDTはより優れた精度のスループットトレードオフ(GSM8Kでは+24%トークン/s、GPQAでは+45%、HumanEvalでは+50%の精度差)を達成する。
これらの結果より,より汎用的なアルゴリズムやシステム革新の拡散復号化のために,タスクレベルの信頼署名を活用できる幅広い機会が示唆された。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Towards Better Code Generation: Adaptive Decoding with Uncertainty Guidance [42.737012213197865]
AdaDecはアダプティブなデコーディングフレームワークで、ルックアヘッドベースで不確実性を認識した停止と再実行のメカニズムを採用している。
AdaDecは、greedyデコーディングと比較して、Pass@1の精度で20.9%の絶対的なゲインを達成する。
AdaDecは、必要に応じて再ランクを適用することで、計算オーバーヘッドとレイテンシを低減し、信頼性とともに効率を向上する。
論文 参考訳(メタデータ) (2025-06-10T16:49:46Z) - Payload-Aware Intrusion Detection with CMAE and Large Language Models [0.0]
侵入検知システム(IDS)は悪意のあるトラフィックを特定するために重要であるが、従来のシグネチャベースの手法ではゼロデイ攻撃と偽陽性率が高い。
本研究では,計算オーバーヘッドを低減しつつ検出精度を向上させる改良型畳み込み型マルチヘッドアテンション・アンサンブル(CMAE)モデルであるXavier-CMAEを提案する。
論文 参考訳(メタデータ) (2025-03-23T02:56:32Z) - Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition [26.665132884613477]
Spike Window Decodingアルゴリズムは、WFSTでデコードされたフレームの数をCTC出力のスパイクフレームの数と線形に関連付けることにより、推論速度を大幅に改善する。
提案手法は,AISHELL-1と大規模In-Houseデータセットの両方で証明された復号速度を大幅に向上させ,SOTA認識精度を実現する。
論文 参考訳(メタデータ) (2025-01-01T12:20:07Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - BLSTM-Based Confidence Estimation for End-to-End Speech Recognition [41.423717224691046]
信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
論文 参考訳(メタデータ) (2023-12-22T11:12:45Z) - Perception and Semantic Aware Regularization for Sequential Confidence
Calibration [12.265757315192497]
本稿では,パーセプションとセマンティックなシーケンス正規化フレームワークを提案する。
意味的文脈に依存しない認識と言語モデルを導入し、高い知覚的類似性と意味的相関性を持つ類似のシーケンスを取得する。
シーンテキストや音声認識など,標準シーケンス認識タスクの実験により,本手法が新たな最先端の結果を設定できることが実証された。
論文 参考訳(メタデータ) (2023-05-31T02:16:29Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Composably secure data processing for Gaussian-modulated continuous
variable quantum key distribution [58.720142291102135]
連続可変量子鍵分布(QKD)は、ボソニックモードの二次構造を用いて、2つのリモートパーティ間の秘密鍵を確立する。
構成可能な有限サイズセキュリティの一般的な設定におけるホモダイン検出プロトコルについて検討する。
特に、ハイレート(非バイナリ)の低密度パリティチェックコードを使用する必要のあるハイシグネチャ・ツー・ノイズ・システマを解析する。
論文 参考訳(メタデータ) (2021-03-30T18:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。