論文の概要: Thinking Inside the Mask: In-Place Prompting in Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2508.10736v1
- Date: Thu, 14 Aug 2025 15:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.378031
- Title: Thinking Inside the Mask: In-Place Prompting in Diffusion LLMs
- Title(参考訳): マスクの内側で考える:拡散LDMのイン・プラス・プロンプティング
- Authors: Xiangqi Jin, Yuxuan Wang, Yifeng Gao, Zichen Wen, Biqing Qi, Dongrui Liu, Linfeng Zhang,
- Abstract要約: 拡散大言語モデル (dLLM) は、その双方向の注意機構と反復的改善プロセスを通じて、新たな機会を提示する。
我々は、プレフィックスのみのプロンプトをdLLM用に特別に設計されたインプレースプロンプトに変換する新しいフレームワークICEを紹介する。
GSM8Kでは4.12$times$スピードアップ、MMLUでは276.67$times$アクセラレーションで最大17.29%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 12.613727203902299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite large language models (LLMs) have achieved remarkable success, their prefix-only prompting paradigm and sequential generation process offer limited flexibility for bidirectional information. Diffusion large language models (dLLMs) present new opportunities through their bidirectional attention mechanisms and iterative refinement processes, enabling more flexible in-place prompting strategies. We introduce ICE (In-Place Chain-of-Thought Prompting with Early Exit), a novel framework that transforms prefix-only prompting into in-place prompting specifically designed for dLLMs. ICE integrates in-place prompts directly within masked token positions during iterative refinement and employs a confidence-aware early exit mechanism to significantly reduce computational overhead. Extensive experiments demonstrate ICE's effectiveness, achieving up to 17.29% accuracy improvement with 4.12$\times$ speedup on GSM8K, and up to 276.67$\times$ acceleration on MMLU while maintaining competitive performance.
- Abstract(参考訳): 大きな言語モデル(LLM)は顕著な成功を収めたにもかかわらず、プレフィックスのみのプロンプトパラダイムとシーケンシャル生成プロセスは、双方向情報に対して限られた柔軟性を提供する。
拡散型大規模言語モデル(dLLM)は、双方向の注意機構と反復的な改善プロセスを通じて、より柔軟なインプレースプロンプト戦略を実現する。
我々は、プレフィックスのみのプロンプトをdLLM用に特別に設計されたインプレースプロンプトに変換する新しいフレームワークであるICE(In-Place Chain-of-Thought Prompting with Early Exit)を紹介する。
ICEは、反復精錬中にマスクされたトークン位置で直接インプレースプロンプトを統合し、計算オーバーヘッドを大幅に削減するために、信頼に敏感な早期退避機構を採用している。
GSM8Kでは最大17.29%の精度向上、4.12$\times$スピードアップ、276.67$\times$アクセラレーションのMMLUでは最大276.67$\times$アクセラレーションが達成された。
関連論文リスト
- Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - LiveMind: Low-latency Large Language Models with Simultaneous Inference [9.795240210326346]
大規模言語モデル(LLM)推論のための新しい低レイテンシ推論フレームワークであるLiveMindを紹介する。
計算処理を入力フェーズに再配置することで、レイテンシを大幅に削減できる。
このフレームワークは、モデルに対するストリーミングインプットの可視性を管理し、不完全なユーザインプットから推論したり、追加コンテンツを待つことができる。
論文 参考訳(メタデータ) (2024-06-20T13:52:30Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。