論文の概要: Understanding the Properties of Generated Corpora
- arxiv url: http://arxiv.org/abs/2206.11219v1
- Date: Wed, 22 Jun 2022 17:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 16:32:07.160596
- Title: Understanding the Properties of Generated Corpora
- Title(参考訳): 生成コーパスの性質の理解
- Authors: Naama Zwerdling, Segev Shlomov, Esther Goldbraich, George Kour, Boaz
Carmeli, Naama Tepper, Inbal Ronen, Vitaly Zabershinsky, Ateret Anaby-Tavor
- Abstract要約: 生成したテキストコーパスの特性を調べるためのツールセットを提案する。
これらのツールを様々な生成コーパスに適用することで、生成モデルの性質に関する新たな洞察を得ることができます。
- 参考スコア(独自算出の注目度): 7.2682787194381575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models for text generation have become focal for many research tasks and
especially for the generation of sentence corpora. However, understanding the
properties of an automatically generated text corpus remains challenging. We
propose a set of tools that examine the properties of generated text corpora.
Applying these tools on various generated corpora allowed us to gain new
insights into the properties of the generative models. As part of our
characterization process, we found remarkable differences in the corpora
generated by two leading generative technologies.
- Abstract(参考訳): テキスト生成モデルは多くの研究課題、特に文コーパスの生成に焦点が当てられている。
しかし,自動生成されたテキストコーパスの特性の理解は依然として困難である。
本稿では,生成テキストコーパスの特性を調べるツールセットを提案する。
これらのツールを様々な生成コーパスに適用することで、生成モデルの性質に関する新たな洞察を得ることができます。
キャラクタリゼーションプロセスの一環として,2つの主要な生成技術によって生成されたコーパスに顕著な差異が認められた。
関連論文リスト
- Exploring the Limitations of Detecting Machine-Generated Text [29.06307663406079]
テキストの書き方の違いを判定し,機械が生成したテキストを検出するための分類性能について批判的に検討する。
分類器は文体的変化やテキストの複雑さの違いに非常に敏感であることがわかった。
さらに,検出システムは,複雑なテキストに対して高い性能を保ちながら,読みやすいテキストを誤分類することが特に考えられる。
論文 参考訳(メタデータ) (2024-06-16T21:02:02Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Personalized Text Generation with Fine-Grained Linguistic Control [9.668216418094316]
複数の言語的次元にまたがる微粒な属性の制御に焦点をあてる。
生成モデルを訓練するための新しいベンチマークを導入し、パーソナライズされたテキストを生成する能力を評価する。
論文 参考訳(メタデータ) (2024-02-07T14:41:08Z) - Deep dive into language traits of AI-generated Abstracts [5.209583971923267]
ChatGPTのような生成言語モデルは、人間のような文章を生成する能力に注意を向けている。
本研究では,ChatGPTが生成する抽象概念を,長さとバウンドがはるかに短い方法で検出しようと試みる。
テキストの意味的特徴と語彙的特性を抽出し、従来の機械学習モデルがこれらの抽象概念を確実に検出できることを観察する。
論文 参考訳(メタデータ) (2023-12-17T06:03:33Z) - Sequentially Controlled Text Generation [97.22539956688443]
GPT-2は、驚くほど人間らしく、長い文書が混ざり合ったり、人間のような文章構造に従わなかったりする文を生成する。
本研究では,長距離テキストにおける命令構造の問題について検討する。
生成と編集が可能な逐次制御型テキスト生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-05T21:23:51Z) - A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。
まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文 参考訳(メタデータ) (2022-02-02T16:18:41Z) - Pretrained Language Models for Text Generation: A Survey [46.03096493973206]
本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。
我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
論文 参考訳(メタデータ) (2021-05-21T12:27:44Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z) - Controllable Text Generation with Focused Variation [71.07811310799664]
Focused-Variation Network (FVN) は言語生成を制御する新しいモデルである。
FVNは、コードブック内の各属性に対する非結合なラテント空間を学習し、制御性と多様性の両方を可能にする。
我々は、注釈付きコンテンツとスタイルを持つ2つのテキスト生成データセット上でFVNを評価し、自動評価と人的評価により、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-09-25T06:31:06Z) - Reverse Engineering Configurations of Neural Text Generation Models [86.9479386959155]
モデル選択の結果、機械が生成したテキストに現れるアーティファクトの研究は、新しい研究領域である。
我々は、モデリング選択が検出可能なアーティファクトを生成テキストに残すかどうかを確認するために、広範囲な診断テストを実行する。
我々の重要な発見は、厳密な実験によって裏付けられ、そのような成果物が存在することと、生成されたテキストのみを観察することで異なるモデリング選択を推測できることである。
論文 参考訳(メタデータ) (2020-04-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。