論文の概要: Stop-Think-AutoRegress: Language Modeling with Latent Diffusion Planning
- arxiv url: http://arxiv.org/abs/2602.20528v1
- Date: Tue, 24 Feb 2026 04:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.597089
- Title: Stop-Think-AutoRegress: Language Modeling with Latent Diffusion Planning
- Title(参考訳): Stop-Think-AutoRegress:潜時拡散計画を用いた言語モデリング
- Authors: Justin Lovelace, Christian Belardi, Sofian Zalouk, Adhitya Polavaram, Srivatsa Kundurthy, Kilian Q. Weinberger,
- Abstract要約: STAR-LDMは「思考」フェーズを組み込んでおり、継続する前に拡散を通じて意味的な計画を洗練するために生成を一時停止する。
評価の結果,STAR-LDMは言語理解ベンチマークにおいて類似のモデルよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 21.39971739444485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Stop-Think-AutoRegress Language Diffusion Model (STAR-LDM) integrates latent diffusion planning with autoregressive generation. Unlike conventional autoregressive language models limited to token-by-token decisions, STAR-LDM incorporates a "thinking" phase that pauses generation to refine a semantic plan through diffusion before continuing. This enables global planning in continuous space prior to committing to discrete tokens. Evaluations show STAR-LDM significantly outperforms similar-sized models on language understanding benchmarks and achieves $>70\%$ win rates in LLM-as-judge comparisons for narrative coherence and commonsense reasoning. The architecture also allows straightforward control through lightweight classifiers, enabling fine-grained steering of attributes without model retraining while maintaining better fluency-control trade-offs than specialized approaches.
- Abstract(参考訳): Stop-Think-AutoRegress Language Diffusion Model (STAR-LDM)は、遅延拡散計画と自己回帰生成を統合する。
トークン・バイ・トークンによる決定に限定された従来の自己回帰型言語モデルとは異なり、STAR-LDMは「思考」フェーズを導入し、継続する前に拡散を通じて意味計画の洗練を停止する。
これにより、離散トークンにコミットする前に、連続空間でのグローバルな計画が可能になる。
評価の結果,STAR-LDMは言語理解ベンチマークにおいて類似のモデルよりも優れており,ナラティブコヒーレンスとコモンセンス推論のLLM-as-judge比較において,$>70\%の勝利率を達成した。
アーキテクチャはまた、軽量な分類器による直接的な制御を可能にし、モデルの再訓練なしに属性のきめ細かいステアリングを可能にし、特殊なアプローチよりも流線型制御のトレードオフを良好に維持する。
関連論文リスト
- Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion [23.834662472392694]
Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)は、効率的な計画と意味論的説明のギャップを埋める新しいフレームワークである。
本稿では,実世界の運転分布から,運動的に実現可能なウェイポイントのコンパクトなコードブックを構築するための,離散的なアクショントークン化戦略を提案する。
nuScenesおよび派生ベンチマークの実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的および拡散的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-24T05:59:10Z) - PlaM: Training-Free Plateau-Guided Model Merging for Better Visual Grounding in MLLMs [59.78917775399492]
マルチモーダル命令の微調整はパラドックス的にこのテキストの推論能力を低下させる。
この劣化を緩和するためのトレーニング不要のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-12T15:27:51Z) - LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning [30.62691333490551]
大規模言語モデル(LLM)は、思考の連鎖生成を通じて推論能力を示す。
連続潜在表現の表現性を統一する新しい推論フレームワークであるLaDiRを提案する。
LaDiRは、既存の自己回帰的、拡散的、潜伏的推論方法よりも、精度、多様性、解釈性を一貫して改善する。
論文 参考訳(メタデータ) (2025-10-06T08:15:03Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。
自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Non-Markovian Discrete Diffusion with Causal Language Models [28.372569129972394]
CaDDi (Causal Discrete Diffusion Model) は、生成軌道全体について条件を定める離散拡散モデルである。
単一の非マルコフ変換器における逐次的(因果的)および時間的(拡散的)推論を統一することにより、CaDDiは標準因果言語モデルも特別なケースとして扱う。
実証的には、CaDDiは自然言語ベンチマークで最先端の離散拡散ベースラインより優れている。
論文 参考訳(メタデータ) (2025-02-13T20:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。