論文の概要: Uniform Complexity for Text Generation
- arxiv url: http://arxiv.org/abs/2204.05185v1
- Date: Mon, 11 Apr 2022 15:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 20:12:25.819585
- Title: Uniform Complexity for Text Generation
- Title(参考訳): テキスト生成のための一様複雑性
- Authors: Joseph Marvin Imperial
- Abstract要約: GPT-2のような強力な言語モデルは、物語生成のようなタスクにおいて有望な結果を示している。
これらのモデルは、使用されるトリガーの言語的性質と整合性を持つべきである。
本研究はテキストの複雑さを評価するために160以上の言語特性を調査した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Powerful language models such as GPT-2 have shown promising results in tasks
such as narrative generation which can be useful in an educational setup. These
models, however, should be consistent with the linguistic properties of
triggers used. For example, if the reading level of an input text prompt is
appropriate for low-leveled learners (ex. A2 in the CEFR), then the generated
continuation should also assume this particular level. Thus, we propose the
task of uniform complexity for text generation which serves as a call to make
existing language generators uniformly complex with respect to prompts used.
Our study surveyed over 160 linguistic properties for evaluating text
complexity and found out that both humans and GPT-2 models struggle in
preserving the complexity of prompts in a narrative generation setting.
- Abstract(参考訳): gpt-2のような強力な言語モデルは、教育的なセットアップで役立つナラティブ生成のようなタスクで有望な結果を示している。
しかし、これらのモデルは、使用するトリガーの言語特性と一致すべきである。
例えば、入力テキストプロンプトの読み取りレベルが低レベル学習者(例えばcefrのa2)に適切であれば、生成された継続もこの特定のレベルを仮定する必要がある。
そこで本研究では,既存の言語生成器をプロンプトに対して一様に複雑化する呼出として機能するテキスト生成のための一様複雑化タスクを提案する。
本研究は,文章の複雑さを評価するために160以上の言語特性を調査し,人間とGPT-2モデルの両方が物語生成環境におけるプロンプトの複雑さの保存に苦慮していることを発見した。
関連論文リスト
- DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Lexical Complexity Controlled Sentence Generation [6.298911438929862]
語彙複雑性制御文生成の新しいタスクを提案する。
学級の読み書き、言語教育、取得などの分野では大きな可能性を秘めている。
本稿では,複雑性の埋め込みに基づく,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T11:03:56Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Long Text Generation by Modeling Sentence-Level and Discourse-Level
Coherence [59.51720326054546]
本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。
我々のモデルは最先端のベースラインよりも一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2021-05-19T07:29:08Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。