論文の概要: Flexible Grammar-Based Constrained Decoding for Language Models
- arxiv url: http://arxiv.org/abs/2305.13971v1
- Date: Tue, 23 May 2023 11:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:49:23.599183
- Title: Flexible Grammar-Based Constrained Decoding for Language Models
- Title(参考訳): フレキシブル文法に基づく言語モデルのための制約付きデコーディング
- Authors: Saibo Geng, Martin Josifosky, Maxime Peyrard, Robert West
- Abstract要約: 本稿では,形式的な文法制約を伴って復号化のステップを強化することを提案する。
ビームサーチでは、文法生成規則に準拠した有効なトークン継続のみを考慮する。
我々は,多くのNLPタスクの出力を形式言語として表現できることを実証した。
- 参考スコア(独自算出の注目度): 33.3965225064554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have shown impressive few-shot performance across many tasks. However,
they still struggle when it comes to generating complex output structures, such
as those required for Information Extraction. This limitation stems from the
fact that LLMs, without finetuning, tend to generate free text rather than
precise structures that follow a specific grammar. In this work, we propose to
enrich the decoding step with formal grammar constraints. During beam search,
only valid token continuations compliant with the grammar production rules are
considered. This enforces the generation of valid sequences exclusively. Our
framework is highly general and flexible, allowing any Context-Free Grammar
(CFG) to be integrated into our custom constrained beam search implementation.
We demonstrate that the outputs of many NLP tasks can be represented as formal
languages, making them suitable for direct use in our framework. For task where
the output space is dependent on the input, we propose input-dependent grammars
to constrain the generation. We conducted experiments with two challenging
tasks involving large alphabets in their grammar (Wikidata entities and
relations): information extraction and entity disambiguation. Our results with
LLaMA models clearly indicate that grammar-constrained decoding outperforms
few-shot prompting without constraints, and even competes with task-specific
finetuned models. These findings suggest that integrating grammar-based
constraints during decoding holds great promise in making LLMs reliably produce
structured outputs, especially in setting where training data is scarce and
finetuning is expensive.
- Abstract(参考訳): LLMは多くのタスクで印象的な数ショットのパフォーマンスを示している。
しかし、情報抽出に必要な複雑な出力構造を生成するという点では、依然として苦労している。
この制限は、LLMが微調整なしで特定の文法に従う正確な構造よりも自由テキストを生成する傾向があるという事実に由来する。
本稿では,形式的文法制約により復号化ステップを強化することを提案する。
ビーム探索中、文法生成規則に準拠した有効なトークン継続のみが考慮される。
これは有効なシーケンスを排他的に生成する。
フレームワークは非常に汎用的で柔軟性があり、任意のContext-Free Grammar(CFG)をカスタム制約ビームサーチ実装に統合することができます。
我々は,多くのNLPタスクの出力を形式言語として表現できることを示す。
出力空間が入力に依存するタスクに対しては,生成を制約する入力依存文法を提案する。
文法における大きなアルファベット (wikidata entities and relations) を含む2つの課題(情報抽出とエンティティの曖昧さ)を用いて実験を行った。
LLaMAモデルを用いた結果から,文法制約付き復号化は制約のない数発のプロンプトよりも優れており,タスク固有の微調整モデルと競合することが明らかとなった。
これらの結果から,デコード中に文法に基づく制約を統合することは,llmが構造化アウトプットを確実に生成する上で,特にトレーニングデータが不足し,微調整が高価である場合に大きな期待が持てることが示唆された。
関連論文リスト
- A Simple but Effective Approach to Improve Structured Language Model
Output for Information Extraction [11.165093163378152]
大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。
本稿では,その構造的テキスト生成能力を高めるために,効率的なG&O手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T20:42:02Z) - Grounding Data Science Code Generation with Input-Output Specifications [32.07033683677839]
大規模言語モデル(LLM)は、最近、自然言語プロンプトからコードを生成する驚くべき能力を示した。
LLMは出力をNLプロンプトとI/O仕様の両方と整合させることが困難である。
I/O 仕様に対する LLM の微調整のための新しい手法である GIFT4Code を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:32:49Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Grammar Prompting for Domain-Specific Language Generation with Large
Language Models [40.831045850285776]
大規模言語モデル(LLM)は、コンテキスト内サンプルのごく一部から、幅広い自然言語タスクを実行することを学べる。
本稿では,LLMが外部知識やドメイン固有の制約を利用できるための簡単な手法であるEmphgrammar promptingを提案する。
論文 参考訳(メタデータ) (2023-05-30T17:26:01Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Language Models of Code are Few-Shot Commonsense Learners [106.1531522893209]
自然言語入力が与えられた場合、目標はイベントや推論グラフなどのグラフを生成することだ。
既存のアプローチは、出力グラフをノードとエッジのフラットリストとしてシリアライズする。
コード生成タスクとして構造化コモンセンス推論タスクをフレーム化する場合、事前学習されたコードLMは自然言語のLMよりも構造化コモンセンス推論タスクの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T16:09:36Z) - BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation [92.75908003533736]
本稿では,自己教師型入力表現を用いたフレームワークレベルの頑健なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-04-16T16:19:47Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - RL-GRIT: Reinforcement Learning for Grammar Inference [2.741266294612776]
本稿では,文法推論のための新しいメカニズムであるRL-GRITを提案し,それをデファクトデータ形式理解に適用する。
本研究では,RLを従来の逐次的環境から高度に相互依存的な解析環境に適応させるために必要なアルゴリズム的変化について概説する。
論文 参考訳(メタデータ) (2021-05-17T23:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。