論文の概要: A Survey on Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2508.10875v1
- Date: Thu, 14 Aug 2025 17:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.43958
- Title: A Survey on Diffusion Language Models
- Title(参考訳): 拡散言語モデルに関する調査
- Authors: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen,
- Abstract要約: 拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムの代替である。
DLMは、推論遅延を減らし、双方向のコンテキストをキャプチャすることに固有の利点がある。
近年の進歩により、DLMは自己回帰に匹敵する性能を示すようになった。
- 参考スコア(独自算出の注目度): 30.00199970146068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Language Models (DLMs) are rapidly emerging as a powerful and promising alternative to the dominant autoregressive (AR) paradigm. By generating tokens in parallel through an iterative denoising process, DLMs possess inherent advantages in reducing inference latency and capturing bidirectional context, thereby enabling fine-grained control over the generation process. While achieving a several-fold speed-up, recent advancements have allowed DLMs to show performance comparable to their autoregressive counterparts, making them a compelling choice for various natural language processing tasks. In this survey, we provide a holistic overview of the current DLM landscape. We trace its evolution and relationship with other paradigms, such as autoregressive and masked language models, and cover both foundational principles and state-of-the-art models. Our work offers an up-to-date, comprehensive taxonomy and an in-depth analysis of current techniques, from pre-training strategies to advanced post-training methods. Another contribution of this survey is a thorough review of DLM inference strategies and optimizations, including improvements in decoding parallelism, caching mechanisms, and generation quality. We also highlight the latest approaches to multimodal extensions of DLMs and delineate their applications across various practical scenarios. Furthermore, our discussion addresses the limitations and challenges of DLMs, including efficiency, long-sequence handling, and infrastructure requirements, while outlining future research directions to sustain progress in this rapidly evolving field. Project GitHub is available at https://github.com/VILA-Lab/Awesome-DLMs.
- Abstract(参考訳): 拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムに代わる強力で有望な選択肢として急速に現れています。
反復デノナイジングプロセスを通じてトークンを並列に生成することにより、DLMは推論遅延を低減し、双方向のコンテキストをキャプチャすることで、生成プロセスのきめ細かい制御を可能にするという固有の利点を持つ。
数倍のスピードアップを達成する一方で、最近の進歩により、DLMは自己回帰処理に匹敵するパフォーマンスを示し、様々な自然言語処理タスクにおいて魅力的な選択肢となっている。
本調査では,現在のDLM景観について概観する。
我々は、その進化と、自己回帰モデルやマスキング言語モデルといった他のパラダイムとの関係を辿り、基礎原理と最先端モデルの両方をカバーする。
我々の研究は、最新の総合的な分類学と、事前訓練戦略から先進的なポストトレーニング方法まで、現在の技術に関する詳細な分析を提供する。
この調査のもうひとつの貢献は、並列化の復号化、キャッシュ機構、生成品質の改善など、DLM推論戦略と最適化の徹底的なレビューである。
また、DLMのマルチモーダル拡張に対する最新のアプローチを強調し、様々な実践シナリオにまたがってそれらのアプリケーションを説明する。
さらに,DLMの効率性,長期ハンドリング,インフラ要件といった限界と課題について考察するとともに,この急速に発展する分野における進歩を維持するための今後の研究の方向性を概説する。
Project GitHubはhttps://github.com/VILA-Lab/Awesome-DLMsで入手できる。
関連論文リスト
- WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。
また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文 参考訳(メタデータ) (2025-12-02T09:02:20Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models [82.87985794856803]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
最近、Diffusion Language Models (DLM) が有望な代替アーキテクチャとして登場した。
論文 参考訳(メタデータ) (2025-10-05T10:50:52Z) - The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM [27.800308082023285]
ビデオ異常検出(VAD)は、ビデオ内の異常な行動や出来事を特定し、接地することを目的としている。
深層モデルアーキテクチャの継続的な進化は、VAD方法論の革新を促した。
MLLM(Multi-modal large language)とLLM(Large Language Model)の急速な開発により、VAD分野に新たな機会と課題がもたらされた。
論文 参考訳(メタデータ) (2025-07-29T10:07:24Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.31088116526825]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。
自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs [5.074812070492738]
本稿では,正確な時間的推論とマルチモーダル理解を目的とした,データ効率のよいビデオLLMであるDaMOを紹介する。
構造化された4段階のプログレッシブトレーニングパラダイムを通じてDaMOをトレーニングし、マルチモーダルアライメント、セマンティックグラウンド、時間的推論機能を備えたモデルを段階的に装備する。
我々の研究は、データ効率の良いビデオ言語モデリングのための有望な方向性を確立する。
論文 参考訳(メタデータ) (2025-06-13T08:13:05Z) - DLM-One: Diffusion Language Models for One-Step Sequence Generation [63.43422118066493]
DLM-Oneは連続拡散言語モデルを用いた1ステップシーケンス生成のためのスコア蒸留ベースのフレームワークである。
DLM-Oneが言語モデリングにおけるサンプリング効率を大幅に向上できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-30T22:42:23Z) - Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。