論文の概要: Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning
- arxiv url: http://arxiv.org/abs/2603.09184v1
- Date: Tue, 10 Mar 2026 04:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.037225
- Title: Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning
- Title(参考訳): Latent-DARM: 推論のための離散拡散と自己回帰モデル
- Authors: Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen,
- Abstract要約: DDLM(プランナ)とARM(エグゼクタ)をブリッジする潜在空間通信フレームワークであるLatent-DARMを紹介する。
数学的、科学的、常識的な推論ベンチマーク全体にわたって、Latent-DARMはテキストベースのインターフェースを平均的に上回っている。
Latent-DARMは、トークン予算の2.2%未満を使用しながら、最先端の推論モデルの結果にアプローチする。
- 参考スコア(独自算出の注目度): 40.43847739412248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most multi-agent systems rely exclusively on autoregressive language models (ARMs) that are based on sequential generation. Although effective for fluent text, ARMs limit global reasoning and plan revision. On the other hand, Discrete Diffusion Language Models (DDLMs) enable non-sequential, globally revisable generation and have shown strong planning capabilities, but their limited text fluency hinders direct collaboration with ARMs. We introduce Latent-DARM, a latent-space communication framework bridging DDLM (planners) and ARM (executors), maximizing collaborative benefits. Across mathematical, scientific, and commonsense reasoning benchmarks, Latent-DARM outperforms text-based interfaces on average, improving accuracy from 27.0% to 36.0% on DART-5 and from 0.0% to 14.0% on AIME2024. Latent-DARM approaches the results of state-of-the-art reasoning models while using less than 2.2% of its token budget. This work advances multi-agent collaboration among agents with heterogeneous models.
- Abstract(参考訳): ほとんどのマルチエージェントシステムは、逐次生成に基づく自動回帰言語モデル(ARM)にのみ依存している。
流動的なテキストには有効だが、ARMはグローバルな推論と計画修正を制限している。
一方、離散拡散言語モデル(DDLM)は、非逐次的かつグローバルに修正可能な生成を可能にし、強力な計画能力を示しているが、その制限されたテキスト流速は、ARMとの直接的な協調を妨げる。
DDLM(プランナ)とARM(エグゼクタ)をブリッジする潜在空間通信フレームワークであるLatent-DARMを導入し、協調的なメリットを最大化する。
数学、科学、常識推論のベンチマーク全体において、Latent-DARMはテキストベースのインタフェースを平均で上回り、精度はDART-5では27.0%から36.0%、AIME2024では0.0%から14.0%に向上した。
Latent-DARMは、トークン予算の2.2%未満を使用しながら、最先端の推論モデルの結果にアプローチする。
この研究は異種モデルを持つエージェント間のマルチエージェント協調を促進する。
関連論文リスト
- ARM: Role-Conditioned Neuron Transplantation for Training-Free Generalist LLM Agent Merging [51.409102048965394]
エージェント・ロール・マージング(ARM)は、LLMエージェントのモデルマージングのための活性化誘導されたロール条件のニューロン移植法である。
ARMは、静的自然言語タスクからマルチターンエージェントシナリオまで、既存のマージメソッドを改善している。
論文 参考訳(メタデータ) (2026-01-12T08:31:53Z) - Planner and Executor: Collaboration between Discrete Diffusion And Autoregressive Models in Reasoning [40.69037032768994]
現在の自己回帰言語モデル(ARM)は精度が高いが、長いトークンシーケンスを必要とするため、コストがかかる。
DDLMは一定数のステップで並列かつ柔軟な生成を可能にする。
本稿では, DDLMとARMを結合したハイブリッドアーキテクチャについて検討し, 協調が相補的利益をもたらすかどうかを検証した。
論文 参考訳(メタデータ) (2025-10-17T02:16:19Z) - Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models [82.87985794856803]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
最近、Diffusion Language Models (DLM) が有望な代替アーキテクチャとして登場した。
論文 参考訳(メタデータ) (2025-10-05T10:50:52Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Scaling up Masked Diffusion Models on Text [43.16800764711572]
仮面拡散モデル(MDM)は言語モデリングにおいて有望であることを示す。
本稿では,MDMのスケーリングに関する最初の法則を確立する。
我々は、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、そのパフォーマンスをより大きなサイズに対して評価する。
論文 参考訳(メタデータ) (2024-10-24T08:01:22Z) - ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction [55.03585818289934]
自己回帰モデル(ARM)と拡散モデル(DM)は、生成モデルにおける2つの主要なパラダイムを表す。
拡散補正(Diffusion Correction: ACDC)を用いた自己回帰型コヒーレント多モード生成について紹介する。
ACDCは、追加の微調整を必要とせず、推論段階でARMとDMの両方の強度を組み合わせる。
論文 参考訳(メタデータ) (2024-10-07T03:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。