Fugu-MT 論文翻訳(概要): PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models

論文の概要: PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models

arxiv url: http://arxiv.org/abs/2109.05093v1
Date: Fri, 10 Sep 2021 20:14:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-14 15:31:51.650628
Title: PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models
Title（参考訳）: PICARD: 言語モデルからの制約付き自己回帰デコードのための構文解析
Authors: Torsten Scholak and Nathan Schucher and Dzmitry Bahdanau
Abstract要約: PICARDはインクリメンタル解析によって言語モデルの自己回帰配列を制約する手法である。 PICARDは、パス可能な性能を持つ微調整T5モデルを最先端のソリューションに変換する。
参考スコア（独自算出の注目度）: 6.654933825256568
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large pre-trained language models for textual data have an unconstrained output space; at each decoding step, they can produce any of 10,000s of sub-word tokens. When fine-tuned to target constrained formal languages like SQL, these models often generate invalid code, rendering it unusable. We propose PICARD (code and trained models available at https://github.com/ElementAI/picard), a method for constraining auto-regressive decoders of language models through incremental parsing. PICARD helps to find valid output sequences by rejecting inadmissible tokens at each decoding step. On the challenging Spider and CoSQL text-to-SQL translation tasks, we show that PICARD transforms fine-tuned T5 models with passable performance into state-of-the-art solutions.
Abstract（参考訳）: テキストデータのための大規模な事前訓練された言語モデルは、制約のない出力空間を持ち、各デコードステップで1万のサブワードトークンを生成できる。 SQLのような制約のある形式言語をターゲットに微調整された場合、これらのモデルはしばしば無効なコードを生成します。 PICARD(https://github.com/ElementAI/picardで利用可能なコードおよびトレーニング済みモデル)は、インクリメンタル解析によって言語モデルの自動回帰デコーダを制約する手法である。 PICARDは、デコードの各ステップで許容できないトークンを拒否することで、有効な出力シーケンスを見つけるのに役立つ。課題であるSpiderとCoSQLのテキストからSQLへの変換タスクにおいて、PICARDは、パス可能なパフォーマンスを備えた微調整されたT5モデルを最先端のソリューションに変換する。

関連論文リスト

Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
大規模言語モデル(LLM)はコードの形式的な側面をモデル化しないため、コンパイル不可能な出力を生成する。本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。提案手法は,コンパイルエラーを半分以上削減し,コード合成,翻訳,修復作業における機能的正しさを向上する。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
Lost in Space: Optimizing Tokens for Grammar-Constrained Decoding [3.5757761767474876]
人間と意味的に類似した文法に体系的な違いがあるかどうかを問う。 4つのNLPベンチマークで5つのトークンフォーマットを持つ4つの人気のあるモデルファミリーをテストする。すべてのモデルは、実数で分類するように指示されたときに最も正確に実行される。
論文参考訳（メタデータ） (2025-02-20T19:06:18Z)
DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models [72.24305287508474]
自動回帰方式で言語モデルでビデオを生成する新しいアプローチであるDiCoDeを紹介する。ビデオを時間的シーケンスとして扱うことで、DiCoDeは自動回帰生成のための言語モデルの能力を完全に活用する。我々は,DiCoDeを定量的かつ質的に評価し,既存の手法と品質の両立性を実証した。
論文参考訳（メタデータ） (2024-12-05T18:57:06Z)
MLissard: Multilingual Long and Simple Sequential Reasoning Benchmarks [10.39816548971042]
言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。 MLissardは、様々な長さのテキストを処理および生成するモデルの能力を評価するために設計されたベンチマークである。
論文参考訳（メタデータ） (2024-10-08T21:59:31Z)
Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-24T17:38:02Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文参考訳（メタデータ） (2023-12-06T09:37:27Z)
A Multilingual Translator to SQL with Database Schema Pruning to Improve Self-Attention [0.0]
最大512個の入力トークンを持つ変換器で長文シーケンスを処理できる技術を提案する。さらに,データを拡張したスパイダーデータセットを4つの言語で同時に調整したmT5大モデルを用いて多言語アプローチを行った。
論文参考訳（メタデータ） (2023-06-25T14:28:12Z)
mmT5: Modular Multilingual Pre-Training Solves Source Language Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。言語固有の情報を言語に依存しない情報から切り離す。 mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文参考訳（メタデータ） (2023-05-23T16:38:01Z)
Text-to-SQL Error Correction with Language Models of Code [24.743066730684742]
本稿では,テキストとコーパスの自動誤り訂正モデルの構築方法について検討する。トークンレベルの編集は文脈外であり、時には曖昧であることに気付き、代わりに節レベルの編集モデルを構築することを提案する。
論文参考訳（メタデータ） (2023-05-22T14:42:39Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文参考訳（メタデータ） (2021-04-18T08:13:06Z)
Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文参考訳（メタデータ） (2021-04-15T16:08:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。