論文の概要: PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding
from Language Models
- arxiv url: http://arxiv.org/abs/2109.05093v1
- Date: Fri, 10 Sep 2021 20:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:31:51.650628
- Title: PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding
from Language Models
- Title(参考訳): PICARD: 言語モデルからの制約付き自己回帰デコードのための構文解析
- Authors: Torsten Scholak and Nathan Schucher and Dzmitry Bahdanau
- Abstract要約: PICARDはインクリメンタル解析によって言語モデルの自己回帰配列を制約する手法である。
PICARDは、パス可能な性能を持つ微調整T5モデルを最先端のソリューションに変換する。
- 参考スコア(独自算出の注目度): 6.654933825256568
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large pre-trained language models for textual data have an unconstrained
output space; at each decoding step, they can produce any of 10,000s of
sub-word tokens. When fine-tuned to target constrained formal languages like
SQL, these models often generate invalid code, rendering it unusable. We
propose PICARD (code and trained models available at
https://github.com/ElementAI/picard), a method for constraining auto-regressive
decoders of language models through incremental parsing. PICARD helps to find
valid output sequences by rejecting inadmissible tokens at each decoding step.
On the challenging Spider and CoSQL text-to-SQL translation tasks, we show that
PICARD transforms fine-tuned T5 models with passable performance into
state-of-the-art solutions.
- Abstract(参考訳): テキストデータのための大規模な事前訓練された言語モデルは、制約のない出力空間を持ち、各デコードステップで1万のサブワードトークンを生成できる。
SQLのような制約のある形式言語をターゲットに微調整された場合、これらのモデルはしばしば無効なコードを生成します。
PICARD(https://github.com/ElementAI/picardで利用可能なコードおよびトレーニング済みモデル)は、インクリメンタル解析によって言語モデルの自動回帰デコーダを制約する手法である。
PICARDは、デコードの各ステップで許容できないトークンを拒否することで、有効な出力シーケンスを見つけるのに役立つ。
課題であるSpiderとCoSQLのテキストからSQLへの変換タスクにおいて、PICARDは、パス可能なパフォーマンスを備えた微調整されたT5モデルを最先端のソリューションに変換する。
関連論文リスト
- MLissard: Multilingual Long and Simple Sequential Reasoning Benchmarks [10.39816548971042]
言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。
しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。
MLissardは、様々な長さのテキストを処理および生成するモデルの能力を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-10-08T21:59:31Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - A Multilingual Translator to SQL with Database Schema Pruning to Improve
Self-Attention [0.0]
最大512個の入力トークンを持つ変換器で長文シーケンスを処理できる技術を提案する。
さらに,データを拡張したスパイダーデータセットを4つの言語で同時に調整したmT5大モデルを用いて多言語アプローチを行った。
論文 参考訳(メタデータ) (2023-06-25T14:28:12Z) - mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文 参考訳(メタデータ) (2023-05-23T16:38:01Z) - Text-to-SQL Error Correction with Language Models of Code [24.743066730684742]
本稿では,テキストとコーパスの自動誤り訂正モデルの構築方法について検討する。
トークンレベルの編集は文脈外であり、時には曖昧であることに気付き、代わりに節レベルの編集モデルを構築することを提案する。
論文 参考訳(メタデータ) (2023-05-22T14:42:39Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。