Fugu-MT 論文翻訳(概要): XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models

論文の概要: XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models

arxiv url: http://arxiv.org/abs/2411.15100v1
Date: Fri, 22 Nov 2024 18:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.245903
Title: XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models
Title（参考訳）: XGrammar: 大規模言語モデルのための柔軟で効率的な構造化生成エンジン
Authors: Yixin Dong, Charlie F. Ruan, Yaxing Cai, Ruihang Lai, Ziyi Xu, Yilong Zhao, Tianqi Chen,
Abstract要約: 文脈自由文法は制約付き復号化による構造化生成を可能にするフレキシブルなアプローチである。 XGrammarは、大規模言語モデルのための柔軟で効率的な構造生成エンジンである。 XGrammarは、既存のソリューションで最大100倍のスピードアップを達成することができる。
参考スコア（独自算出の注目度）: 3.9417976759908573
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The applications of LLM Agents are becoming increasingly complex and diverse, leading to a high demand for structured outputs that can be parsed into code, structured function calls, and embodied agent commands. These developments bring significant demands for structured generation in LLM inference. Context-free grammar is a flexible approach to enable structured generation via constrained decoding. However, executing context-free grammar requires going through several stack states over all tokens in vocabulary during runtime, bringing non-negligible overhead for structured generation. In this paper, we propose XGrammar, a flexible and efficient structure generation engine for large language models. XGrammar accelerates context-free grammar execution by dividing the vocabulary into context-independent tokens that can be prechecked and context-dependent tokens that need to be interpreted during runtime. We further build transformations to expand the grammar context and reduce the number of context-independent tokens. Additionally, we build an efficient persistent stack to accelerate the context-dependent token checks. Finally, we co-design the grammar engine with LLM inference engine to overlap grammar computation with GPU executions. Evaluation results show that XGrammar can achieve up to 100x speedup over existing solutions. Combined with an LLM inference engine, it can generate near-zero overhead structure generation in end-to-end low-LLM serving.
Abstract（参考訳）: LLMエージェントの応用はますます複雑で多様なものになり、コード、構造化関数呼び出し、エンボディエージェントコマンドに解析できる構造化出力の需要が高まっている。これらの発展により、LLM推論における構造化生成に対する大きな要求がもたらされる。文脈自由文法は制約付き復号化による構造化生成を可能にするフレキシブルなアプローチである。しかしながら、コンテクストフリー文法の実行には、実行中に語彙中のすべてのトークンにいくつかのスタック状態を実行する必要があるため、構造化された生成には無視できないオーバーヘッドが生じる。本稿では,大規模言語モデルのための柔軟で効率的な構造生成エンジンであるXGrammarを提案する。 XGrammarは、語彙を事前チェック可能な文脈に依存しないトークンと、実行時に解釈する必要があるコンテキストに依存しないトークンに分割することで、文脈に依存しない文法の実行を加速する。さらに、文法的文脈を拡張し、文脈に依存しないトークンの数を減らすために変換を構築します。さらに、コンテキスト依存のトークンチェックを高速化するために、効率的な永続スタックを構築します。最後に,文法計算とGPUの実行を重複させるため,LLM推論エンジンで文法エンジンを共同設計する。評価の結果、XGrammarは既存のソリューションの最大100倍の高速化を達成できることが示された。 LLM推論エンジンと組み合わせることで、エンドツーエンドの低LLMサービスにおいて、ほぼゼロのオーバーヘッド構造を生成することができる。

関連論文リスト

WGRAMMAR: Leverage Prior Knowledge to Accelerate Structured Decoding [58.1177179119881]
我々は、ドメイン認識の単純化、制約分解、マスクキャッシングを統合した軽量デコードエンジンであるwgrammarを紹介する。 wgrammarは、既存のシステムよりも最大250倍のスピードアップを実現します。
論文参考訳（メタデータ） (2025-07-22T17:13:47Z)
RELIC: Evaluating Compositional Instruction Following via Language Recognition [37.49115450182637]
大規模言語モデル(LLM)は、コンテキストで提供されるタスクの仕様に基づいてのみタスクを実行することがますます期待されている。本稿では,言語認識を用いたインコンテキスト認識(RELIC)フレームワークについて紹介する。
論文参考訳（メタデータ） (2025-06-05T16:17:24Z)
Earley-Driven Dynamic Pruning for Efficient Structured Decoding [6.905994258490735]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、その出力が厳密な構造的制約や文法的制約に適合することを保証することは依然として困難である。そこで本稿では,Earey アルゴリズムをベースとした新しい手法を提案し,無効あるいは冗長なEarey 状態をリアルタイムに識別・排除する。既存の最適化も取り入れたFormatronと呼ばれる制約付きデコードエンジンを実装した。
論文参考訳（メタデータ） (2025-06-01T20:05:30Z)
PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文参考訳（メタデータ） (2025-02-24T19:48:00Z)
Flexible and Efficient Grammar-Constrained Decoding [5.671312847528642]
文法制約付き復号法(GCD)は、LLM出力がそのような規則と一致することを保証できる。既存のGCDアルゴリズムでは、共通文法を前処理するのに何分もかかる。本稿では,既存の手法よりも17.71倍高速なオフライン前処理を実現するGCDアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-07T17:35:17Z)
Filter-then-Generate: Large Language Models with Structure-Text Adapter for Knowledge Graph Completion [20.973071287301067]
大規模言語モデル(LLM)は、膨大な固有の知識と優れた意味理解能力を示す。実証的な証拠は、LLMは従来の知識グラフ補完手法よりも一貫して性能が悪いことを示唆している。そこで本研究では,これらの課題に対処するために,FtGという命令チューニングに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-12T09:22:04Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason' 構造化データをグラフ埋め込みを用いて位相空間にエンコードする。行方不明のエンティティ情報を知識検索モジュールで埋める。最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文参考訳（メタデータ） (2024-07-17T13:06:25Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。 CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
A Simple but Effective Approach to Improve Structured Language Model Output for Information Extraction [11.165093163378152]
大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。本稿では,その構造的テキスト生成能力を高めるために,効率的なG&O手法を提案する。
論文参考訳（メタデータ） (2024-02-20T20:42:02Z)
Efficient Guided Generation for Large Language Models [0.21485350418225244]
本稿では, 有限状態マシンの状態間の遷移の観点から, ニューラルテキスト生成の問題を構成的に再構成する方法を示す。このフレームワークは、正規表現と文脈自由文法でテキスト生成を導くための効率的なアプローチをもたらす。
論文参考訳（メタデータ） (2023-07-19T01:14:49Z)
COLLIE: Systematic Construction of Constrained Text Generation Tasks [33.300039566331876]
COLLIEは文法ベースのフレームワークで、多種多様な世代レベルのリッチで構成的な制約を仕様化することができる。本研究では,制約構造と生テキストコーパスが与えられたタスクインスタンスの自動抽出ツールを開発する。我々は、最先端の5つの言語モデルに対して体系的な実験を行い、その性能を分析し、欠点を明らかにする。
論文参考訳（メタデータ） (2023-07-17T17:48:51Z)
Grammar Prompting for Domain-Specific Language Generation with Large Language Models [40.831045850285776]
大規模言語モデル(LLM)は、コンテキスト内サンプルのごく一部から、幅広い自然言語タスクを実行することを学べる。本稿では,LLMが外部知識やドメイン固有の制約を利用できるための簡単な手法であるEmphgrammar promptingを提案する。
論文参考訳（メタデータ） (2023-05-30T17:26:01Z)
Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文参考訳（メタデータ） (2023-05-24T06:42:44Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)
GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。 GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文参考訳（メタデータ） (2020-10-06T20:30:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。