論文の概要: XGrammar 2: Dynamic and Efficient Structured Generation Engine for Agentic LLMs
- arxiv url: http://arxiv.org/abs/2601.04426v1
- Date: Wed, 07 Jan 2026 22:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.940736
- Title: XGrammar 2: Dynamic and Efficient Structured Generation Engine for Agentic LLMs
- Title(参考訳): XGrammar 2: エージェントLLMのための動的かつ効率的な構造生成エンジン
- Authors: Linzhang Li, Yixin Dong, Guanjie Wang, Ziyi Xu, Alexander Jiang, Tianqi Chen,
- Abstract要約: XGrammar 2はエージェントLSMのための高度に最適化された構造化生成エンジンである。
XGrammar 2は、動的に構造化されたタスクのマスク生成を、新しい動的ディスパッチセマンティクスにより加速する。
XGrammar 2は既存の構造化された世代エンジンの6倍以上のスピードアップを達成できる。
- 参考スコア(独自算出の注目度): 43.019637484576755
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern LLM agents are required to handle increasingly complex structured generation tasks, such as tool calling and conditional structured generation. These tasks are significantly more dynamic than predefined structures, posing new challenges to the current structured generation engines. In this paper, we propose XGrammar 2, a highly optimized structured generation engine for agentic LLMs. XGrammar 2 accelerates the mask generation for these dynamic structured generation tasks through a new dynamic dispatching semantics: TagDispatch. We further introduce a just-in-time (JIT) compilation method to reduce compilation time and a cross-grammar caching mechanism to leverage the common sub-structures across different grammars. Additionally, we extend the previous PDA-based mask generation algorithm to the Earley-parser-based one and design a repetition compression algorithm to handle repetition structures in grammars. Evaluation results show that XGrammar 2 can achieve more than 6x speedup over the existing structured generation engines. Integrated with an LLM inference engine, XGrammar 2 can handle dynamic structured generation tasks with near-zero overhead.
- Abstract(参考訳): 現代のLLMエージェントは、ツール呼び出しや条件付き構造化生成のような、ますます複雑な構造化生成タスクを扱う必要がある。
これらのタスクは事前定義された構造よりもはるかにダイナミックであり、現在の構造化された生成エンジンに新たな課題を提起する。
本稿では,エージェントLSMのための高度に最適化された構造化生成エンジンであるXGrammar 2を提案する。
XGrammar 2は、新しい動的ディスパッチセマンティクスにより、これらの動的構造化されたタスクのマスク生成を加速する。
さらに、コンパイル時間を短縮するジャスト・イン・タイム(JIT)コンパイル法と、異なる文法にまたがる共通サブ構造を利用するクロス文法キャッシング機構を導入する。
さらに,従来のPDAマスク生成アルゴリズムをEarey-parserベースに拡張し,文法の繰り返し構造を扱うために繰り返し圧縮アルゴリズムを設計する。
評価結果から,XGrammar 2は既存の構造生成エンジンの6倍以上の高速化を実現可能であることがわかった。
LLM推論エンジンと統合されたXGrammar 2は、ほぼゼロのオーバーヘッドで動的に構造化された生成タスクを処理できる。
関連論文リスト
- ThinkGen: Generalized Thinking for Visual Generation [97.19923474851987]
ThinkGenは、さまざまな世代のシナリオでChain-of-Thought(CoT)推論を明示的に活用する、思考駆動のビジュアル生成フレームワークである。
本稿では,MLLMとDiTモジュール間の強化学習を交互に行う,分離可能なGRPOベースのトレーニングパラダイムを提案する。
実験の結果、ThinkGenは複数の世代ベンチマークで堅牢で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-29T16:08:50Z) - ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - WGRAMMAR: Leverage Prior Knowledge to Accelerate Structured Decoding [58.1177179119881]
我々は、ドメイン認識の単純化、制約分解、マスクキャッシングを統合した軽量デコードエンジンであるwgrammarを紹介する。
wgrammarは、既存のシステムよりも最大250倍のスピードアップを実現します。
論文 参考訳(メタデータ) (2025-07-22T17:13:47Z) - HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [24.46771930751068]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。
自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。
エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T19:37:53Z) - XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models [3.9417976759908573]
文脈自由文法は制約付き復号化による構造化生成を可能にするフレキシブルなアプローチである。
XGrammarは、大規模言語モデルのための柔軟で効率的な構造生成エンジンである。
XGrammarは、既存のソリューションで最大100倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-11-22T18:01:37Z) - A Simple but Effective Approach to Improve Structured Language Model
Output for Information Extraction [11.165093163378152]
大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。
本稿では,その構造的テキスト生成能力を高めるために,効率的なG&O手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T20:42:02Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。