論文の概要: Uniform Complexity for Text Generation
- arxiv url: http://arxiv.org/abs/2204.05185v3
- Date: Thu, 19 Oct 2023 21:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 15:40:41.541080
- Title: Uniform Complexity for Text Generation
- Title(参考訳): テキスト生成のための一様複雑性
- Authors: Joseph Marvin Imperial, Harish Tayyar Madabushi
- Abstract要約: テキスト生成のための統一複雑度(UCTG)は,生成モデルに一様言語特性をプロンプトに関して観察させるという課題を提起する新しいベンチマークテストである。
GPT-2のようなモデルは、プロフェッショナルなテキストで微調整しても、代々使われる入力プロンプトの複雑さを維持するのに苦労している。
- 参考スコア(独自算出の注目度): 4.867923281108005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promising results in a wide array of
generative NLP tasks, such as summarization and machine translation. In the
context of narrative generation, however, existing models still do not capture
factors that contribute to producing consistent text. For instance, it is
logical that a piece of text or a story should be uniformly readable throughout
and that this form of complexity should be controllable. As such, if the
complexity of an input text prompt is rated first-grade reading level in the
Flesch Reading Ease test, then the generated text continuing the plot should
also be within this range of complexity. With this in mind, we introduce
Uniform Complexity for Text Generation (UCTG), a new benchmark test which
raises the challenge of making generative models observe uniform linguistic
properties with respect to prompts. We experiment with over 150+ linguistically
and cognitively motivated features for evaluating text complexity in humans and
generative models. From our results, we find that models such as GPT-2 struggle
to preserve the complexity of input prompts used in its generations, even if
finetuned with professionally written texts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、要約や機械翻訳など、幅広い生成NLPタスクにおいて有望な結果を示している。
しかし、物語生成の文脈では、既存のモデルはまだ一貫したテキストの生成に寄与する要因を捉えていない。
例えば、テキストやストーリーが一様に読まれるべきであり、この形式の複雑さは制御可能であるべきだと論理的である。
したがって、Flesch Reading Easeテストにおいて入力テキストプロンプトの複雑さが第1級の読み込みレベルと評価されている場合、プロットを継続する生成されたテキストも、この範囲の複雑さに該当する。
そこで本研究では,テキスト生成のための一様複雑性(uctg)を導入する。このベンチマークテストは,プロンプトに対して生成モデルが一様言語特性を観測する課題を提起するものだ。
我々は、150以上の言語的・認知的動機づけのある特徴を実験し、人間のテキスト複雑性と生成モデルを評価する。
この結果から, GPT-2のようなモデルでは, プロフェッショナルなテキストを微調整しても, 代々使用される入力プロンプトの複雑さの維持に苦慮していることがわかった。
関連論文リスト
- DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Lexical Complexity Controlled Sentence Generation [6.298911438929862]
語彙複雑性制御文生成の新しいタスクを提案する。
学級の読み書き、言語教育、取得などの分野では大きな可能性を秘めている。
本稿では,複雑性の埋め込みに基づく,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T11:03:56Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Long Text Generation by Modeling Sentence-Level and Discourse-Level
Coherence [59.51720326054546]
本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。
我々のモデルは最先端のベースラインよりも一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2021-05-19T07:29:08Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。