論文の概要: Diffusion LMs Can Approximate Optimal Infilling Lengths Implicitly
- arxiv url: http://arxiv.org/abs/2602.00476v1
- Date: Sat, 31 Jan 2026 03:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.211162
- Title: Diffusion LMs Can Approximate Optimal Infilling Lengths Implicitly
- Title(参考訳): 拡散型LMは最適充填長を瞬時に近似できる
- Authors: Hengchang Liu, Zhao Yang, Bing Su,
- Abstract要約: 拡散言語モデル(DLM)は、自然に埋め込むのに適した双方向生成フレームワークを提供する。
本稿では, DLM には, 適切な埋蔵長さを検出できる固有の能力があることを明らかにする。
トレーニング不要な textbfCAL により DLM は正規復号化前の効率的な探索により最適な長さを近似することができる。
- 参考スコア(独自算出の注目度): 16.576341843767352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion language models (DLMs) provide a bidirectional generation framework naturally suited for infilling, yet their performance is constrained by the pre-specified infilling length. In this paper, we reveal that DLMs possess an inherent ability to discover the correct infilling length. We identify two key statistical phenomena in the first-step denoising confidence: a local \textit{Oracle Peak} that emerges near the ground-truth length and a systematic \textit{Length Bias} that often obscures this signal. By leveraging this signal and calibrating the bias, our training-free method \textbf{CAL} (\textbf{C}alibrated \textbf{A}daptive \textbf{L}ength) enables DLMs to approximate the optimal length through an efficient search before formal decoding. Empirical evaluations demonstrate that CAL improves Pass@1 by up to 47.7\% over fixed-length baselines and 40.5\% over chat-based adaptive methods in code infilling, while boosting BLEU-2 and ROUGE-L by up to 8.5\% and 9.9\% in text infilling. These results demonstrate that CAL paves the way for robust DLM infilling without requiring any specialized training. Code is available at https://github.com/NiuHechang/Calibrated_Adaptive_Length.
- Abstract(参考訳): 拡散言語モデル(DLMs)は、自然に埋め込むのに適した双方向生成フレームワークを提供するが、その性能はあらかじめ指定された埋め込む長さによって制約される。
本稿では, DLM には, 適切な埋蔵長さを検出できる固有の能力があることを明らかにする。
第一段階の信頼性を示す2つの重要な統計現象を同定する: 局所的な textit{Oracle Peak} と、このシグナルをしばしば隠蔽する体系的な \textit{Length Bias} である。
この信号を利用してバイアスを補正することにより、トレーニング不要な方法である \textbf{CAL} (\textbf{C}alibrated \textbf{A}daptive \textbf{L}ength) により、DLM は形式復号化前の効率的な探索により最適な長さを近似することができる。
実証的な評価では、CALはPass@1を固定長のベースラインで47.7倍、コード埋め込みでチャットベースの適応メソッドで40.5倍、BLEU-2とROUGE-Lで最大8.5倍、テキスト埋め込みで9.9倍改善している。
これらの結果から, CALは専門的な訓練を必要とせず, 堅牢なDLM埋設の道を開くことが示唆された。
コードはhttps://github.com/NiuHechang/Calibrated_Adaptive_Lengthで公開されている。
関連論文リスト
- $\
abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Predicting LLM Output Length via Entropy-Guided Representations [13.351384070796747]
本稿では,本モデルの内部隠蔽状態を有効長予測のために再利用する軽量フレームワークを提案する。
1) オンザフライアクティベーションとトークンエントロピーを用いて高精度な静的予測を行うEGTP (Entropy-Guided Token Pooling) である。
論文 参考訳(メタデータ) (2026-02-12T10:49:04Z) - Lookahead Path Likelihood Optimization for Diffusion LLMs [31.01208893976334]
本稿では,下流の精度と強く相関する軌道条件付き目標であるパスログ類似度(Path LL)を導入し,非マスキング経路の原理的選択を可能にする。
推定時刻におけるPath LLの最適化のために,部分復号軌道の予測を行う効率の良い値推定器POKEを提案する。
次に、このルックアヘッド信号をモンテカルロをベースとした探索フレームワークであるPOKE-SMCに統合し、最適なアンマスクパスを動的に識別する。
論文 参考訳(メタデータ) (2026-02-03T13:12:41Z) - LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文 参考訳(メタデータ) (2025-08-04T11:22:13Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - SpeLLM: Character-Level Multi-Head Decoding [6.474939955469084]
SpeLLMは、複数の出力ヘッドを通して文字レベルの文字列を予測することで、入力と出力の語彙を分離する手法である。
SpeLLMでは、$k$のリニアヘッドが1つの文字を同時に予測し、モデルがより大きな出力空間を表現できるようにする。
4つの事前学習 LLM を用いた実験により,SpeLLM 変種は下流タスク上での競合性能を実現し,ランタイムを5.1%削減した。
論文 参考訳(メタデータ) (2025-07-22T08:07:06Z) - ETT: Expanding the Long Context Understanding Capability of LLMs at Test-Time [4.737679362712655]
ourmodelacronym(Extend at Test-Time)は、短いコンテキストのコンテクスト長を変換子ベースの言語モデルに拡張する手法である。
GPT-LargeとPhi-2のコンテキスト長を32倍に拡張し,LongBench上のETTを評価する。
論文 参考訳(メタデータ) (2025-07-08T18:06:45Z) - Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。
ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文 参考訳(メタデータ) (2025-06-19T15:38:21Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
Cool-Fusionは、トレーニングを必要としないソースLLMの知識を融合させる。
さまざまなベンチマークデータセットで実験が行われた。
GSM8Kでは、Cool-Fusionは3つの強力なLLMからの精度を17.4%向上させた。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。