論文の概要: WGRAMMAR: Leverage Prior Knowledge to Accelerate Structured Decoding
- arxiv url: http://arxiv.org/abs/2507.16768v1
- Date: Tue, 22 Jul 2025 17:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.21517
- Title: WGRAMMAR: Leverage Prior Knowledge to Accelerate Structured Decoding
- Title(参考訳): WGRAMMAR: 構造化デコーディングを高速化するための事前知識を活用する
- Authors: Ran Wang, Xiaoxuan Liu, Hao Ren, Gang Chen, Fanchao Qi, Maosong Sun,
- Abstract要約: 我々は、ドメイン認識の単純化、制約分解、マスクキャッシングを統合した軽量デコードエンジンであるwgrammarを紹介する。
wgrammarは、既存のシステムよりも最大250倍のスピードアップを実現します。
- 参考スコア(独自算出の注目度): 58.1177179119881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured decoding enables large language models (LLMs) to generate outputs in formats required by downstream systems, such as HTML or JSON. However, existing methods suffer from efficiency bottlenecks due to grammar compilation, state tracking, and mask creation. We observe that many real-world tasks embed strong prior knowledge about output structure. Leveraging this, we propose a decomposition of constraints into static and dynamic components -- precompiling static structures offline and instantiating dynamic arguments at runtime using grammar snippets. Instead of relying on pushdown automata, we employ a compositional set of operators to model regular formats, achieving lower transition latency. We introduce wgrammar, a lightweight decoding engine that integrates domain-aware simplification, constraint decomposition, and mask caching, achieving up to 250x speedup over existing systems. wgrammar's source code is publicly available at https://github.com/wrran/wgrammar.
- Abstract(参考訳): 構造化復号化により、大規模な言語モデル(LLM)は、HTMLやJSONといった下流システムに必要なフォーマットで出力を生成することができる。
しかし、既存の手法は文法コンパイル、状態追跡、マスク生成による効率のボトルネックに悩まされている。
多くの実世界のタスクが出力構造に関する強い事前知識を組み込んでいるのを観察する。
静的な構造をオフラインでプリコンパイルし、文法スニペットを使用して実行時に動的引数をインスタンス化する。
プッシュダウンオートマトンに頼る代わりに、通常のフォーマットをモデル化するために一連の演算子を使用し、遷移遅延を低くする。
我々は、ドメイン認識の単純化、制約分解、マスキャッシングを統合した軽量デコードエンジンであるwgrammarを導入し、既存のシステムの最大250倍の高速化を実現した。
wgrammarのソースコードはhttps://github.com/wrran/wgrammar.comで公開されている。
関連論文リスト
- Earley-Driven Dynamic Pruning for Efficient Structured Decoding [6.905994258490735]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、その出力が厳密な構造的制約や文法的制約に適合することを保証することは依然として困難である。
そこで本稿では,Earey アルゴリズムをベースとした新しい手法を提案し,無効あるいは冗長なEarey 状態をリアルタイムに識別・排除する。
既存の最適化も取り入れたFormatronと呼ばれる制約付きデコードエンジンを実装した。
論文 参考訳(メタデータ) (2025-06-01T20:05:30Z) - Guided Tensor Lifting [54.10411390218929]
機械学習のためのドメイン固有言語(s)は、機械学習ワークロードのスピードと効率に革命をもたらしている。
これらの機能を利用するには、ユーザはまず、現在記述されている言語からレガシーコードを新しいDSLに変換する必要があります。
これらのDSLにコードを自動的に持ち込むプロセスは、プログラム合成を解決策として提案する最近のいくつかの研究によって特定されている。
論文 参考訳(メタデータ) (2025-04-28T12:00:10Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - Hierarchical Autoregressive Transformers: Combining Byte- and Word-Level Processing for Robust, Adaptable Language Models [3.382910438968506]
トークン化は自然言語処理の基本的なステップであり、テキストを計算モデルが処理できる単位に分割する。
文字レベルと単語レベルの処理を組み合わせた自己回帰型言語モデリングのための階層的アーキテクチャについて検討する。
我々は、70億のパラメータをスケールして、階層変換器がサブワードトケナイザベースのモデルの下流タスク性能と一致することを実証する。
論文 参考訳(メタデータ) (2025-01-17T17:51:53Z) - XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models [3.9417976759908573]
文脈自由文法は制約付き復号化による構造化生成を可能にするフレキシブルなアプローチである。
XGrammarは、大規模言語モデルのための柔軟で効率的な構造生成エンジンである。
XGrammarは、既存のソリューションで最大100倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-11-22T18:01:37Z) - Automata-based constraints for language model decoding [9.137697105669142]
言語モデル(LM)は、いくつかの形式言語で文字列を生成することがしばしば期待されている。
チューニングにはかなりのリソースが必要で、一般的でない、あるいはタスク固有のフォーマットでは実用的ではない。
我々はこれらの問題をオートマトン理論を適用して解決する。
我々のシステムは、7000倍高速に制約をコンパイルし、確実に正確であり、モジュール方式で拡張することができる。
論文 参考訳(メタデータ) (2024-07-11T00:25:01Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning [27.59524153097858]
文法制約付き復号法(GCD)は、大言語モデル(LM)の生成を制御するために用いられる。
GCDは一般に構造化NLPタスクの統一フレームワークとして機能する。
文法制約付きLMは、制約なしLMよりも大幅に優れるか、タスク固有の微調整モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T11:54:37Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。