論文の概要: Synthetically generated text for supervised text analysis
- arxiv url: http://arxiv.org/abs/2303.16028v1
- Date: Tue, 28 Mar 2023 14:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:50:23.903304
- Title: Synthetically generated text for supervised text analysis
- Title(参考訳): 教師付きテキスト分析のための合成テキスト
- Authors: Andrew Halterman
- Abstract要約: テキスト生成の概念的概要、研究者が合成テキストを生成するための異なるテクニックをいつ選択すべきかに関するガイダンス、倫理に関する議論、および合成テキストの品質向上のための簡単なテクニックを提供する。
本稿では,ウクライナにおける戦闘を記述した合成ツイートの生成,イベント検出システムの訓練のための特定の政治事象を記述した合成ニュース記事,文レベルポピュリズム分類器の訓練のためのポピュリスト宣言文の多言語コーパスの3つの応用例を用いて,合成テキストの有用性を示す。
- 参考スコア(独自算出の注目度): 5.71097144710995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised text models are a valuable tool for political scientists but
present several obstacles to their use, including the expense of hand-labeling
documents, the difficulty of retrieving rare relevant documents for annotation,
and copyright and privacy concerns involved in sharing annotated documents.
This article proposes a partial solution to these three issues, in the form of
controlled generation of synthetic text with large language models. I provide a
conceptual overview of text generation, guidance on when researchers should
prefer different techniques for generating synthetic text, a discussion of
ethics, and a simple technique for improving the quality of synthetic text. I
demonstrate the usefulness of synthetic text with three applications:
generating synthetic tweets describing the fighting in Ukraine, synthetic news
articles describing specified political events for training an event detection
system, and a multilingual corpus of populist manifesto statements for training
a sentence-level populism classifier.
- Abstract(参考訳): 改訂されたテキストモデルは、政治科学者にとって貴重なツールであるが、手書き文書の費用、注釈のための稀な関連文書の検索の難しさ、注釈付き文書の共有に関わる著作権とプライバシーに関する懸念など、それらの使用にいくつかの障害をもたらす。
本稿では,これら3つの問題に対する部分解を,大規模言語モデルを用いた合成テキストの制御形式として提案する。
テキスト生成の概念的概要、研究者が合成テキストを生成するための異なるテクニックをいつ選択すべきかに関するガイダンス、倫理に関する議論、および合成テキストの品質向上のための簡単なテクニックを提供する。
ウクライナにおける戦闘を表現した合成ツイートの作成,イベント検出システムを訓練するための特定の政治イベントを記述した合成ニュース記事,文レベルのポピュリズム分類子を訓練するための多言語コーパスの3つのアプリケーションを用いて,合成テキストの有用性を実証する。
関連論文リスト
- Human-in-the-Loop Synthetic Text Data Inspection with Provenance Tracking [11.022295941449919]
Inspectorは,ループ内データ検査技術である。
ユーザスタディでは,感情分析タスクでは3X,ヘイトスピーチ検出タスクでは4X,正確なラベル付きテキスト数が増加する。
論文 参考訳(メタデータ) (2024-04-29T17:16:27Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Automatic and Human-AI Interactive Text Generation [27.05024520190722]
本チュートリアルは、最先端の自然言語生成研究の概要を提供する。
テキストからテキストへの生成タスクは、セマンティック一貫性とターゲット言語スタイルの観点からより制約される。
論文 参考訳(メタデータ) (2023-10-05T20:26:15Z) - A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data [4.096453902709292]
シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
論文 参考訳(メタデータ) (2022-09-06T11:15:58Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals [69.76097138157816]
確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
論文 参考訳(メタデータ) (2021-07-12T20:47:08Z) - Generating Informative Conclusions for Argumentative Texts [32.3103908466811]
論証文の目的は、ある結論を支持することである。
明確な結論は、議論文のよい候補要約である。
これは、結論が情報であり、特定の概念をテキストから強調する場合に特に当てはまる。
論文 参考訳(メタデータ) (2021-06-02T10:35:59Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。