論文の概要: DLLM Agent: See Farther, Run Faster
- arxiv url: http://arxiv.org/abs/2602.07451v2
- Date: Tue, 10 Feb 2026 02:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:42.93282
- Title: DLLM Agent: See Farther, Run Faster
- Title(参考訳): DLLMエージェント:もっと遠くへ、より速く走る
- Authors: Huiling Zhen, Weizhe Lin, Renxi Liu, Kai Han, Yiming Li, Yuchuan Tian, Hanting Chen, Xiaoguang Li, Xiaosong Li, Chen Chen, Xianzhi Yu, Mingxuan Yuan, Youliang Yan, Peifeng Qin, Jun Wang, Yu Wang, Dacheng Tao, Yunhe Wang,
- Abstract要約: 拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
- 参考スコア(独自算出の注目度): 94.74432470237817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (DLLMs) have emerged as an alternative to autoregressive (AR) decoding with appealing efficiency and modeling properties, yet their implications for agentic multi-step decision making remain underexplored. We ask a concrete question: when the generation paradigm is changed but the agent framework and supervision are held fixed, do diffusion backbones induce systematically different planning and tool-use behaviors, and do these differences translate into end-to-end efficiency gains? We study this in a controlled setting by instantiating DLLM and AR backbones within the same agent workflow (DeepDiver) and performing matched agent-oriented fine-tuning on the same trajectory data, yielding diffusion-backed DLLM Agents and directly comparable AR agents. Across benchmarks and case studies, we find that, at comparable accuracy, DLLM Agents are on average over 30% faster end to end than AR agents, with some cases exceeding 8x speedup. Conditioned on correct task completion, DLLM Agents also require fewer interaction rounds and tool invocations, consistent with higher planner hit rates that converge earlier to a correct action path with less backtracking. We further identify two practical considerations for deploying diffusion backbones in tool-using agents. First, naive DLLM policies are more prone to structured tool-call failures, necessitating stronger tool-call-specific training to emit valid schemas and arguments. Second, for multi-turn inputs interleaving context and action spans, diffusion-style span corruption requires aligned attention masking to avoid spurious context-action information flow; without such alignment, performance degrades. Finally, we analyze attention dynamics across workflow stages and observe paradigm-specific coordination patterns, suggesting stronger global planning signals in diffusion-backed agents.
- Abstract(参考訳): 拡散大言語モデル (DLLM) は、魅力ある効率性とモデリング特性を持つ自己回帰的(AR)デコーディングの代替として登場したが、エージェント多段階決定へのその影響は未解明のままである。
生成パラダイムが変更されたが、エージェントフレームワークと監督が固定された場合、拡散バックボーンは体系的に異なる計画とツール使用の振る舞いを誘導し、これらの違いがエンドツーエンドの効率向上に変換されるか?
我々は,同じエージェントワークフロー(DeepDiver)内でDLLMとARのバックボーンをインスタンス化し,一致するエージェント指向の微調整を行い,拡散支援されたDLLMエージェントと直接比較したARエージェントを生成することによって,制御された環境でこれを研究する。
ベンチマークやケーススタディ全体では、DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
正しいタスク完了を条件として、DLLMエージェントは、バックトラックの少ない正しいアクションパスにより早く収束するプランナーヒット率と整合した、より少ないインタラクションラウンドとツール呼び出しも必要とします。
さらに,ツール使用エージェントに拡散バックボーンを配置する際の2つの実践的考察について述べる。
まず、単純なDLLMポリシーは、構造化されたツール呼び出し障害に傾向があり、有効なスキーマと引数を出力するために、より強力なツール呼び出し固有のトレーニングを必要とする。
第二に、マルチターン入力がコンテキストとアクションスパンをインターリーブするためには、拡散スタイルのスパン破壊は、刺激的なコンテキストアクション情報の流れを避けるために、アライメントされたアライメントマスキングを必要とする。
最後に、ワークフローステージ間の注意動態を分析し、パラダイム固有の調整パターンを観察し、拡散支援エージェントにおけるより強力なグローバル計画信号を提案する。
関連論文リスト
- DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents [31.08047797205678]
拡散大言語モデル(dLLLLM)は、本質的に並列な復号化機構とフレキシブルな生成パラダイムによって実現され、独特な効率性を示す。
サーチエージェントの急速な進歩にもかかわらず、その実践的展開は、1)チャレンジと呼ばれる基本的な制限によって制限される: マルチラウンド推論、ツール呼び出し、ツール応答の連続実行。
本稿では,dLLMに基づく検索エージェントの最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-03T09:12:08Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。