論文の概要: Human-in-the-Loop Synthetic Text Data Inspection with Provenance Tracking
- arxiv url: http://arxiv.org/abs/2404.18881v1
- Date: Mon, 29 Apr 2024 17:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:48:52.953790
- Title: Human-in-the-Loop Synthetic Text Data Inspection with Provenance Tracking
- Title(参考訳): Provenance Trackingを用いたHuman-in-the-Loop Synthetic Text Data Inspection
- Authors: Hong Jin Kang, Fabrice Harel-Canada, Muhammad Ali Gulzar, Violet Peng, Miryung Kim,
- Abstract要約: Inspectorは,ループ内データ検査技術である。
ユーザスタディでは,感情分析タスクでは3X,ヘイトスピーチ検出タスクでは4X,正確なラベル付きテキスト数が増加する。
- 参考スコア(独自算出の注目度): 11.022295941449919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation techniques apply transformations to existing texts to generate additional data. The transformations may produce low-quality texts, where the meaning of the text is changed and the text may even be mangled beyond human comprehension. Analyzing the synthetically generated texts and their corresponding labels is slow and demanding. To winnow out texts with incorrect labels, we develop INSPECTOR, a human-in-the-loop data inspection technique. INSPECTOR combines the strengths of provenance tracking techniques with assistive labeling. INSPECTOR allows users to group related texts by their transformation provenance, i.e., the transformations applied to the original text, or feature provenance, the linguistic features of the original text. For assistive labeling, INSPECTOR computes metrics that approximate data quality, and allows users to compare the corresponding label of each text against the predictions of a large language model. In a user study, INSPECTOR increases the number of texts with correct labels identified by 3X on a sentiment analysis task and by 4X on a hate speech detection task. The participants found grouping the synthetically generated texts by their common transformation to be the most useful technique. Surprisingly, grouping texts by common linguistic features was perceived to be unhelpful. Contrary to prior work, our study finds that no single technique obviates the need for human inspection effort. This validates the design of INSPECTOR which combines both analysis of data provenance and assistive labeling to reduce human inspection effort.
- Abstract(参考訳): データ拡張技術は、既存のテキストに変換を適用して追加データを生成する。
変換は低品質のテキストを生成し、そこではテキストの意味が変化し、テキストは人間の理解を越えて隠蔽される。
合成されたテキストとそのラベルの分析は遅く、要求される。
そこで我々は,不正確なラベル付きテキストを抽出するために,人間のループデータ検査技術であるINSPECTORを開発した。
INSPECTORは、前立腺追跡技術の強みと補助的ラベリングを組み合わせる。
INSPECTORは、ユーザーが関連するテキストを変換フォーマンス、すなわち、元のテキストに適用された変換、または元のテキストの言語的特徴によってグループ化することができる。
補助的なラベリングのために、INSPECTORはデータ品質を近似するメトリクスを計算し、ユーザーはそれぞれのテキストのラベルを大きな言語モデルの予測と比較することができる。
ユーザスタディでは,感情分析タスクでは3X,ヘイトスピーチ検出タスクでは4X,正確なラベル付きテキスト数が増加する。
参加者は、それらの共通変換によって合成されたテキストをグループ化することが最も有用なテクニックであることがわかった。
驚くべきことに、共通の言語的特徴によるテキストのグループ化は不便であると認識された。
先行研究とは対照的に,本研究では,ヒト検診の必要性を排除できる手法が1つも存在しないことが判明した。
これは、人間の検査作業を減らすために、データの出所分析と補助的ラベル付けの両方を組み合わせたINSPECTORの設計を検証する。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Textual Data Distributions: Kullback Leibler Textual Distributions
Contrasts on GPT-2 Generated Texts, with Supervised, Unsupervised Learning on
Vaccine & Market Topics & Sentiment [0.0]
効率的なテキストデータ分散(TDD)アライメントと生成は、テキスト分析とNLPにおけるオープンな研究課題である。
我々は、KL Textual Distributions Contrastsという、Kulback-Leibler分散アプリケーションからTDDへの独自のプロセス駆動のバリエーションを開発した。
そこで本研究では、トピックと感情によるTDDの生成と検証のためのユニークなアプローチを特定します。
論文 参考訳(メタデータ) (2021-06-15T21:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。