論文の概要: Rainbow Padding: Mitigating Early Termination in Instruction-Tuned Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2510.03680v1
- Date: Sat, 04 Oct 2025 05:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.190861
- Title: Rainbow Padding: Mitigating Early Termination in Instruction-Tuned Diffusion LLMs
- Title(参考訳): レインボーパディング : 命令型拡散LDMにおける早期終了の軽減
- Authors: Bumjun Kim, Dongjae Jeon, Dueun Kim, Wonje Jeung, Albert No,
- Abstract要約: 拡散型大規模言語モデルは,textteos> overflow と呼ばれる重大な脆弱性を示す。
Rainbow Padding(レインボー・パディング)は、反復するtextteos>プレースホルダーを別のパディングトークンの繰り返しサイクルで置き換えるシンプルな治療法である。
実験により、レインボーパディングは、早期終了を防ぐのに十分な7つのパディングトークンで、長さの堅牢性と出力品質を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 10.214443153276962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) have emerged as a promising alternative to autoregressive models, offering flexible generation orders and strong performance on complex reasoning tasks. However, instruction-tuned dLLMs exhibit a critical vulnerability we term \texttt{<eos>} overflow: as allocated sequence length increases, responses paradoxically become shorter, collapsing into early termination or degenerating into streams of \texttt{<eos>} tokens. Although noticed in practice, this issue has not been systematically analyzed. We trace its root cause to the dual role of \texttt{<eos>} as both termination and padding, which concentrates probability mass on \texttt{<eos>} at later positions and propagates backward to trigger early termination. To address this, we introduce Rainbow Padding, a simple remedy that replaces repeated \texttt{<eos>} placeholders with a repeating cycle of distinct padding tokens, distributing probability mass and breaking \texttt{<eos>} dominance. Experiments show that Rainbow Padding substantially improves length robustness and output quality, with as few as seven padding tokens sufficient to prevent early termination. Moreover, the method integrates efficiently into existing instruction-tuned models: LoRA fine-tuning for a single epoch on minimal data yields significant improvements, making this solution highly practical. The code is publicly available at https://github.com/quasar529/rainbow-padding.
- Abstract(参考訳): 拡散大言語モデル(dLLMs)は自己回帰モデルに代わる有望な代替として登場し、柔軟な生成順序と複雑な推論タスクの強力なパフォーマンスを提供する。
しかし、命令チューニングされたdLLMは、 \texttt{<eos>} overflow という重要な脆弱性を示す:割り当てられたシーケンス長が増加するにつれて、レスポンスはパラドックス的に短くなり、早期終了に崩壊するか、あるいは \texttt{<eos>}トークンのストリームに縮退する。
実際には注目されているが、この問題は体系的に分析されていない。
我々は、その根本原因を、その後の位置における確率質量を集中させ、早期終了を誘発するために後方に伝播する「texttt{<eos>}」の双対的な役割に遡る。
この問題を解決するために、Rainbow Paddingを紹介します。これは、繰り返し発生する \texttt{<eos>} プレースホルダーを、異なるパディングトークンの繰り返しサイクルに置き換え、確率質量を分散し、 \texttt{<eos>} 支配を破るシンプルな治療法です。
実験の結果,レインボー・パディングは耐長性や出力品質を著しく向上し,早期終了を防ぐのに十分な7つのパディングトークンが得られた。
さらに、この手法は、既存の命令調整モデルに効率的に統合される: 最小限のデータに対する1つのエポックの微調整は、大幅な改善をもたらし、このソリューションを極めて実用的なものにする。
コードはhttps://github.com/quasar529/rainbow-padding.comで公開されている。
関連論文リスト
- Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
本稿では,デコードウインドウを狭める正規化法であるConal decoding (Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。
本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。
数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文 参考訳(メタデータ) (2025-06-04T16:01:48Z) - ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy [8.962703809086628]
ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-05-21T15:58:16Z) - Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。