論文の概要: Differences in Text Generated by Diffusion and Autoregressive Language Models
- arxiv url: http://arxiv.org/abs/2605.12522v1
- Date: Sat, 04 Apr 2026 17:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.781653
- Title: Differences in Text Generated by Diffusion and Autoregressive Language Models
- Title(参考訳): 拡散と自己回帰言語モデルによるテキストの相違
- Authors: Zeyang Zhang, Chengwei Liang, Xingyan Chen, Meiqi Gu, Minrui Luo, Jingzhao Zhang, Tianxing He,
- Abstract要約: 拡散言語モデル(DLM)は自己回帰言語モデル(ARM)に代わる有望な選択肢である
まず、既成のDLMが、より低い$n$-gramエントロピー、高いセマンティックコヒーレンス、より高いセマンティック多様性を示すことを実証的に見出した。
学習目的と復号アルゴリズムの効果を分離する実験を行う。
- 参考スコア(独自算出の注目度): 21.816538128891256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion language models (DLMs) are promising alternatives to autoregressive language models (ARMs), yet the intrinsic differences in their generated text remain underexplored. We first find empirically that off-the-shelf DLMs exhibit lower $n$-gram entropy, higher semantic coherence, and higher semantic diversity. To understand the cause, we conduct controlled experiments that decouple the effects of training objectives and decoding algorithms. Results suggest that the DLM training objective contributes to the increases in semantic coherence and semantic diversity, but has a minor influence on entropy. These differences are primarily driven by the bidirectional context; other components in the training objective, such as input masking, label masking, and the weighting function, have a much weaker influence. Further, our experiments demonstrate that the reduction in entropy stems from DLMs' decoding algorithms, particularly confidence-based remasking strategies. We provide a theoretical understanding for this entropy reduction phenomenon. Together, our work uncovers key mechanisms underlying the differences between DLMs and ARMs in text generation, and informs future design of training objectives and decoding algorithms in DLMs.
- Abstract(参考訳): 拡散言語モデル (DLMs) は自動回帰言語モデル (ARMs) の代替として有望であるが、生成したテキストの本質的な違いは未解明のままである。
まず、既成のDLMが、より低い$n$-gramエントロピー、高いセマンティックコヒーレンス、より高いセマンティック多様性を示すことを実証的に見出した。
原因を理解するため,訓練対象と復号アルゴリズムの効果を分離する制御実験を行った。
その結果,DLMトレーニングの目的は意味的コヒーレンスや意味的多様性の増大に寄与するが,エントロピーにはほとんど影響を与えないことが示唆された。
これらの違いは、主に双方向のコンテキストによって駆動される。入力マスキング、ラベルマスキング、重み付け関数といったトレーニング目的の他のコンポーネントは、より弱い影響を持つ。
さらに, エントロピーの低減は, DLMの復号化アルゴリズム, 特に信頼性に基づくリマッシング戦略に起因していることを示した。
このエントロピー低減現象の理論的理解を提供する。
そこで本研究では,テキスト生成におけるDLMとARMの差異の根底にある重要なメカニズムを明らかにするとともに,DLMにおける学習目標と復号アルゴリズムの設計について報告する。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - PlaM: Training-Free Plateau-Guided Model Merging for Better Visual Grounding in MLLMs [59.78917775399492]
マルチモーダル命令の微調整はパラドックス的にこのテキストの推論能力を低下させる。
この劣化を緩和するためのトレーニング不要のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-12T15:27:51Z) - Reproducing and Dissecting Denoising Language Models for Speech Recognition [31.91567892562116]
音声認識(ASR)のための従来の言語モデル(LM)に代わる強力な代替手段として、DLM(Denoising Language Model)が提案されている。
本稿では,DLMの大規模独立研究について述べる。
論文 参考訳(メタデータ) (2025-12-15T17:33:22Z) - Attention Sinks in Diffusion Language Models [15.450369268824835]
Masked Diffusion Language Models (DLM) は、最近、従来の自己回帰モデル (ARM) に代わる有望な代替品として登場した。
我々はDLMの注意パターンを実験的に分析し、これまで様々なトランスフォーマーアーキテクチャで見られた注意沈降現象に着目した。
まず、ARMとは異なり、DLMのシンク位置は生成過程を通して変化し、動的挙動を示す傾向にある。
論文 参考訳(メタデータ) (2025-10-17T15:23:58Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Odysseus Navigates the Sirens' Song: Dynamic Focus Decoding for Factual and Diverse Open-Ended Text Generation [18.835969818281125]
大規模言語モデル(LLM)は、事実的正確かつ多様な様々なオープンエンドアプリケーションにまたがるテキストを生成するためにますます必要とされる。
我々は、新たなデータや知識、モデルを必要とすることなく、このトレードオフを解決する新しいプラグイン・アンド・プレイアプローチであるDynamic Focus Decoding (DFD)を紹介します。
DFDはレイヤ間の分布差に基づいてデコード焦点を適応的に調整し、LLM内の事実知識のモジュール的および階層的性質を活用する。
論文 参考訳(メタデータ) (2025-03-11T05:27:28Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。