論文の概要: Domain-Specific Shorthand for Generation Based on Context-Free Grammar
- arxiv url: http://arxiv.org/abs/2406.10442v1
- Date: Fri, 14 Jun 2024 23:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:32:34.228719
- Title: Domain-Specific Shorthand for Generation Based on Context-Free Grammar
- Title(参考訳): 文脈自由文法に基づくドメイン特有な生成用ショートハンド
- Authors: Andriy Kanyuka, Elias Mahfoud,
- Abstract要約: YAMLやXMLなどのフォーマットで構造化データを生成することは、Generative AI(GenAI)アプリケーションにおいて重要なタスクである。
文脈自由文法(CFG)を基盤としたドメイン特化短文形式(DSS)を導入する。
本稿では,DSSとそれに付随するCFGの開発について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The generation of structured data in formats such as JSON, YAML and XML is a critical task in Generative AI (GenAI) applications. These formats, while widely used, contain many redundant constructs that lead to inflated token usage. This inefficiency is particularly evident when employing large language models (LLMs) like GPT-4, where generating extensive structured data incurs increased latency and operational costs. We introduce a domain-specific shorthand (DSS) format, underpinned by a context-free grammar (CFG), and demonstrate its usage to reduce the number of tokens required for structured data generation. The method involves creating a shorthand notation that captures essential elements of the output schema with fewer tokens, ensuring it can be unambiguously converted to and from its verbose form. It employs a CFG to facilitate efficient shorthand generation by the LLM, and to create parsers to translate the shorthand back into standard structured formats. The application of our approach to data visualization with LLMs demonstrates a significant (3x to 5x) reduction in generated tokens, leading to significantly lower latency and cost. This paper outlines the development of the DSS and the accompanying CFG, and the implications of this approach for GenAI applications, presenting a scalable solution to the token inefficiency problem in structured data generation.
- Abstract(参考訳): JSON、YAML、XMLなどのフォーマットで構造化データを生成することは、Generative AI(GenAI)アプリケーションにおいて重要なタスクである。
これらのフォーマットは広く使われているが、多くの冗長な構造を含んでおり、拡張トークンの使用につながっている。
この非効率性は、GPT-4のような大規模言語モデル(LLM)を用いることで特に顕著であり、大規模な構造化データを生成するとレイテンシと運用コストが増大する。
本研究では、文脈自由文法(CFG)を基盤としたドメイン固有短文(DSS)フォーマットを導入し、構造化データ生成に必要なトークン数を削減するためにその使用法を実証する。
この方法は、少ないトークンで出力スキーマの本質的要素をキャプチャし、曖昧に変換され、その冗長な形式から変換されることを保証する、短い手書きの記法を作成することを含む。
LLMによる効率的なショートハンド生成を容易にするためにCFGを使用し、ショートハンドを標準的な構造化フォーマットに変換するパーサを作成する。
LLMを用いたデータビジュアライゼーションへのアプローチの適用により、生成されたトークンの3倍から5倍の大幅な削減が可能となり、レイテンシとコストが大幅に削減された。
本稿では,DSSとそれに付随するCFGの開発と,GenAIアプリケーションにおけるこのアプローチの意義を概説し,構造化データ生成におけるトークン不効率問題に対するスケーラブルな解決法を提案する。
関連論文リスト
- Enhancing Item Tokenization for Generative Recommendation through Self-Improvement [67.94240423434944]
生成レコメンデーションシステムは大規模言語モデル(LLM)によって駆動される
現在のアイテムトークン化手法には、テキスト記述、数値文字列、離散トークンのシーケンスの使用が含まれる。
自己改善アイテムトークン化手法を提案し,LLMがトレーニングプロセス中に独自のアイテムトークン化を洗練できるようにする。
論文 参考訳(メタデータ) (2024-12-22T21:56:15Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Filter-then-Generate: Large Language Models with Structure-Text Adapter for Knowledge Graph Completion [20.973071287301067]
大規模言語モデル(LLM)は、膨大な固有の知識と優れた意味理解能力を示す。
実証的な証拠は、LLMは従来の知識グラフ補完手法よりも一貫して性能が悪いことを示唆している。
そこで本研究では,これらの課題に対処するために,FtGという命令チューニングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-12T09:22:04Z) - LLaSA: Large Language and Structured Data Assistant [27.452536284165273]
グラフニュートラルネットワーク (GNN) は、Large Language Models (LLM) の入力に付加的なモダリティとして導入された。
構造化データの処理能力を高めるために, textbfLarge textbfLanguage と textbfStructured Data textbfAssistant (LLaSA) を提案する。
論文 参考訳(メタデータ) (2024-11-16T12:27:14Z) - Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason'
構造化データをグラフ埋め込みを用いて位相空間にエンコードする。
行方不明のエンティティ情報を知識検索モジュールで埋める。
最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文 参考訳(メタデータ) (2024-07-17T13:06:25Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Leveraging Large Language Models for Node Generation in Few-Shot Learning on Text-Attributed Graphs [5.587264586806575]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。
LLMはラベルから意味情報を抽出し、模範としてカテゴリに属するサンプルを生成する。
エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
論文 参考訳(メタデータ) (2023-10-15T16:04:28Z) - Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning [27.59524153097858]
文法制約付き復号法(GCD)は、大言語モデル(LM)の生成を制御するために用いられる。
GCDは一般に構造化NLPタスクの統一フレームワークとして機能する。
文法制約付きLMは、制約なしLMよりも大幅に優れるか、タスク固有の微調整モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T11:54:37Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。