論文の概要: A Survey on Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2508.10875v1
- Date: Thu, 14 Aug 2025 17:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.43958
- Title: A Survey on Diffusion Language Models
- Title(参考訳): 拡散言語モデルに関する調査
- Authors: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen,
- Abstract要約: 拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムの代替である。
DLMは、推論遅延を減らし、双方向のコンテキストをキャプチャすることに固有の利点がある。
近年の進歩により、DLMは自己回帰に匹敵する性能を示すようになった。
- 参考スコア(独自算出の注目度): 30.00199970146068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Language Models (DLMs) are rapidly emerging as a powerful and promising alternative to the dominant autoregressive (AR) paradigm. By generating tokens in parallel through an iterative denoising process, DLMs possess inherent advantages in reducing inference latency and capturing bidirectional context, thereby enabling fine-grained control over the generation process. While achieving a several-fold speed-up, recent advancements have allowed DLMs to show performance comparable to their autoregressive counterparts, making them a compelling choice for various natural language processing tasks. In this survey, we provide a holistic overview of the current DLM landscape. We trace its evolution and relationship with other paradigms, such as autoregressive and masked language models, and cover both foundational principles and state-of-the-art models. Our work offers an up-to-date, comprehensive taxonomy and an in-depth analysis of current techniques, from pre-training strategies to advanced post-training methods. Another contribution of this survey is a thorough review of DLM inference strategies and optimizations, including improvements in decoding parallelism, caching mechanisms, and generation quality. We also highlight the latest approaches to multimodal extensions of DLMs and delineate their applications across various practical scenarios. Furthermore, our discussion addresses the limitations and challenges of DLMs, including efficiency, long-sequence handling, and infrastructure requirements, while outlining future research directions to sustain progress in this rapidly evolving field. Project GitHub is available at https://github.com/VILA-Lab/Awesome-DLMs.
- Abstract(参考訳): 拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムに代わる強力で有望な選択肢として急速に現れています。
反復デノナイジングプロセスを通じてトークンを並列に生成することにより、DLMは推論遅延を低減し、双方向のコンテキストをキャプチャすることで、生成プロセスのきめ細かい制御を可能にするという固有の利点を持つ。
数倍のスピードアップを達成する一方で、最近の進歩により、DLMは自己回帰処理に匹敵するパフォーマンスを示し、様々な自然言語処理タスクにおいて魅力的な選択肢となっている。
本調査では,現在のDLM景観について概観する。
我々は、その進化と、自己回帰モデルやマスキング言語モデルといった他のパラダイムとの関係を辿り、基礎原理と最先端モデルの両方をカバーする。
我々の研究は、最新の総合的な分類学と、事前訓練戦略から先進的なポストトレーニング方法まで、現在の技術に関する詳細な分析を提供する。
この調査のもうひとつの貢献は、並列化の復号化、キャッシュ機構、生成品質の改善など、DLM推論戦略と最適化の徹底的なレビューである。
また、DLMのマルチモーダル拡張に対する最新のアプローチを強調し、様々な実践シナリオにまたがってそれらのアプリケーションを説明する。
さらに,DLMの効率性,長期ハンドリング,インフラ要件といった限界と課題について考察するとともに,この急速に発展する分野における進歩を維持するための今後の研究の方向性を概説する。
Project GitHubはhttps://github.com/VILA-Lab/Awesome-DLMsで入手できる。
関連論文リスト
- The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM [27.800308082023285]
ビデオ異常検出(VAD)は、ビデオ内の異常な行動や出来事を特定し、接地することを目的としている。
深層モデルアーキテクチャの継続的な進化は、VAD方法論の革新を促した。
MLLM(Multi-modal large language)とLLM(Large Language Model)の急速な開発により、VAD分野に新たな機会と課題がもたらされた。
論文 参考訳(メタデータ) (2025-07-29T10:07:24Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.31088116526825]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。
自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - DLM-One: Diffusion Language Models for One-Step Sequence Generation [63.43422118066493]
DLM-Oneは連続拡散言語モデルを用いた1ステップシーケンス生成のためのスコア蒸留ベースのフレームワークである。
DLM-Oneが言語モデリングにおけるサンプリング効率を大幅に向上できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-30T22:42:23Z) - Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。