論文の概要: Textual Data Distributions: Kullback Leibler Textual Distributions
Contrasts on GPT-2 Generated Texts, with Supervised, Unsupervised Learning on
Vaccine & Market Topics & Sentiment
- arxiv url: http://arxiv.org/abs/2107.02025v1
- Date: Tue, 15 Jun 2021 21:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-11 11:32:05.207230
- Title: Textual Data Distributions: Kullback Leibler Textual Distributions
Contrasts on GPT-2 Generated Texts, with Supervised, Unsupervised Learning on
Vaccine & Market Topics & Sentiment
- Title(参考訳): テキストデータ分布:Kullback Leibler Textual Distributions Contrasts on GPT-2 Generated Texts, with Supervised, Unsupervised Learning on Vaccine & Market Topics & Sentiment
- Authors: Jim Samuel, Ratnakar Palle and Eduardo Correa Soares
- Abstract要約: 効率的なテキストデータ分散(TDD)アライメントと生成は、テキスト分析とNLPにおけるオープンな研究課題である。
我々は、KL Textual Distributions Contrastsという、Kulback-Leibler分散アプリケーションからTDDへの独自のプロセス駆動のバリエーションを開発した。
そこで本研究では、トピックと感情によるTDDの生成と検証のためのユニークなアプローチを特定します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient textual data distributions (TDD) alignment and generation are open
research problems in textual analytics and NLP. It is presently difficult to
parsimoniously and methodologically confirm that two or more natural language
datasets belong to similar distributions, and to identify the extent to which
textual data possess alignment. This study focuses on addressing a segment of
the broader problem described above by applying multiple supervised and
unsupervised machine learning (ML) methods to explore the behavior of TDD by
(i) topical alignment, and (ii) by sentiment alignment. Furthermore we use
multiple text generation methods including fine-tuned GPT-2, to generate text
by topic and by sentiment. Finally we develop a unique process driven variation
of Kullback-Leibler divergence (KLD) application to TDD, named KL Textual
Distributions Contrasts(KL-TDC) to identify the alignment of machine generated
textual corpora with naturally occurring textual corpora. This study thus
identifies a unique approach for generating and validating TDD by topic and
sentiment, which can be used to help address sparse data problems and other
research, practice and classroom situations in need of artificially generated
topic or sentiment aligned textual data.
- Abstract(参考訳): テキスト分析とNLPにおける効率的なテキストデータ分散(TDD)アライメントと生成はオープンな研究課題である。
現在、2つ以上の自然言語データセットが類似の分布に属していることの同調的かつ方法論的に確認し、テキストデータがアライメントする範囲を特定することは困難である。
本研究では,複数の教師付きおよび教師なし機械学習(ML)手法を適用し,(i)トピックアライメントによるTDDの振る舞い,(ii)感情アライメントによるTDDの振る舞いを探索することにより,上記の問題の一部に対処することに焦点を当てる。
さらに,質調整gpt-2を含む複数のテキスト生成手法を用いて,話題別および感情別テキストを生成する。
最後に、KL Textual Distributions Contrasts(KL-TDC)と名付けられた、KLL(Kulback-Leibler divergence)アプリケーションからTDDへの独自のプロセス駆動のバリエーションを開発し、自然に発生するテキストコーパスと機械生成テキストコーパスのアライメントを特定する。
そこで本研究では,話題や感情によってTDDを生成し,検証するためのユニークなアプローチを,人工的に生成されたトピックや感情に整合したテキストデータを必要とする場合に,疎結合なデータ問題やその他の研究,実践,教室の状況に対処するために使用することができる。
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Human-in-the-Loop Synthetic Text Data Inspection with Provenance Tracking [11.022295941449919]
Inspectorは,ループ内データ検査技術である。
ユーザスタディでは,感情分析タスクでは3X,ヘイトスピーチ検出タスクでは4X,正確なラベル付きテキスト数が増加する。
論文 参考訳(メタデータ) (2024-04-29T17:16:27Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。