論文の概要: COLLIE: Systematic Construction of Constrained Text Generation Tasks
- arxiv url: http://arxiv.org/abs/2307.08689v1
- Date: Mon, 17 Jul 2023 17:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 11:45:25.795682
- Title: COLLIE: Systematic Construction of Constrained Text Generation Tasks
- Title(参考訳): COLLIE:制約付きテキスト生成タスクの体系的構築
- Authors: Shunyu Yao, Howard Chen, Austin W. Hanjie, Runzhe Yang, Karthik
Narasimhan
- Abstract要約: COLLIEは文法ベースのフレームワークで、多種多様な世代レベルのリッチで構成的な制約を仕様化することができる。
本研究では,制約構造と生テキストコーパスが与えられたタスクインスタンスの自動抽出ツールを開発する。
我々は、最先端の5つの言語モデルに対して体系的な実験を行い、その性能を分析し、欠点を明らかにする。
- 参考スコア(独自算出の注目度): 33.300039566331876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text generation under constraints have seen increasing interests in natural
language processing, especially with the rapidly improving capabilities of
large language models. However, existing benchmarks for constrained generation
usually focus on fixed constraint types (e.g.,generate a sentence containing
certain words) that have proved to be easy for state-of-the-art models like
GPT-4. We present COLLIE, a grammar-based framework that allows the
specification of rich, compositional constraints with diverse generation levels
(word, sentence, paragraph, passage) and modeling challenges (e.g.,language
understanding, logical reasoning, counting, semantic planning). We also develop
tools for automatic extraction of task instances given a constraint structure
and a raw text corpus. Using COLLIE, we compile the COLLIE-v1 dataset with 2080
instances comprising 13 constraint structures. We perform systematic
experiments across five state-of-the-art instruction-tuned language models and
analyze their performances to reveal shortcomings. COLLIE is designed to be
extensible and lightweight, and we hope the community finds it useful to
develop more complex constraints and evaluations in the future.
- Abstract(参考訳): 制約下でのテキスト生成は自然言語処理への関心が高まり、特に大規模言語モデルの能力が急速に向上した。
しかしながら、制約付き生成のための既存のベンチマークは、gpt-4のような最先端モデルでは容易であることが証明された固定制約型(例えば、特定の単語を含む文の生成)に焦点を当てている。
多様な世代レベル(単語、文、段落、節)とモデリングの課題(例えば、言語理解、論理的推論、計数、意味計画)を持つ、リッチで構成的な制約の仕様を可能にする文法ベースのフレームワークであるcolieを提案する。
また,制約構造と生テキストコーパスを付与したタスクインスタンスの自動抽出ツールを開発した。
COLLIEを用いて、13の制約構造からなる2080のインスタンスでCOLLIE-v1データセットをコンパイルする。
最新の5つの言語モデルで系統的な実験を行い,その性能を分析し,欠点を明らかにする。
COLLIEは拡張可能で軽量なように設計されており、コミュニティが将来より複雑な制約や評価を開発するのに役立つことを願っています。
関連論文リスト
- Controllable Text Generation in the Instruction-Tuning Era [3.310278632293704]
プロンプトベースのアプローチは,ほとんどのデータセットやタスクにおいて,制御可能なテキスト生成方法よりも優れていることがわかった。
制約データセットを自動的に生成するために,タスクデータセットとコンテキスト内機能を備えた大規模言語モデルのみを使用するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-05-02T17:24:30Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Instruct-SCTG: Guiding Sequential Controlled Text Generation through
Instructions [42.67608830386934]
Instruct-SCTGは、命令調整言語モデルを利用して構造的に一貫性のあるテキストを生成するシーケンシャルフレームワークである。
本フレームワークは,自然言語命令を用いて,所望の人体構造に整合して記事を生成する。
論文 参考訳(メタデータ) (2023-12-19T16:20:49Z) - Toward Unified Controllable Text Generation via Regular Expression
Instruction [56.68753672187368]
本稿では,正規表現の利点をフル活用し,多様な制約を一様にモデル化する命令ベース機構を用いた正規表現指導(REI)を提案する。
提案手法では,中規模言語モデルの微調整や,大規模言語モデルでの少数ショット・インコンテクスト学習のみを要し,各種制約の組み合わせに適用した場合のさらなる調整は不要である。
論文 参考訳(メタデータ) (2023-09-19T09:05:14Z) - Efficient Guided Generation for Large Language Models [0.21485350418225244]
本稿では, 有限状態マシンの状態間の遷移の観点から, ニューラルテキスト生成の問題を構成的に再構成する方法を示す。
このフレームワークは、正規表現と文脈自由文法でテキスト生成を導くための効率的なアプローチをもたらす。
論文 参考訳(メタデータ) (2023-07-19T01:14:49Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。
まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。
制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-04-27T15:56:34Z) - Controllable Text Generation with Language Constraints [39.741059642044874]
本稿では,自然言語に制約のある言語モデルにおけるテキスト生成の課題について考察する。
私たちのベンチマークには、WordnetやWikidataといったデータベースから得られる知識集約的な制約が含まれています。
本稿では,言語モデルの内部知識を活用して生成をガイドする手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T17:39:21Z) - Long Text Generation by Modeling Sentence-Level and Discourse-Level
Coherence [59.51720326054546]
本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。
我々のモデルは最先端のベースラインよりも一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2021-05-19T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。