論文の概要: CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning
- arxiv url: http://arxiv.org/abs/2212.10341v1
- Date: Tue, 20 Dec 2022 15:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:39:50.327338
- Title: CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning
- Title(参考訳): CoCo: コントラスト学習によるデータ制限下でのコヒーレンス強化機械によるテキスト検出
- Authors: Xiaoming Liu, Zhaohan Zhang, Yichen Wang, Yu Lan, Chao Shen
- Abstract要約: 低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴の特異性と永続性に着想を得て,テキストをコヒーレンスグラフとして表現し,その実体的一貫性を捉える。
- 参考スコア(独自算出の注目度): 17.72323938332943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-Generated Text (MGT) detection, a task that discriminates MGT from
Human-Written Text (HWT), plays a crucial role in preventing misuse of text
generative models, which excel in mimicking human writing style recently.
Latest proposed detectors usually take coarse text sequence as input and output
some good results by fine-tune pretrained models with standard cross-entropy
loss. However, these methods fail to consider the linguistic aspect of text
(e.g., coherence) and sentence-level structures. Moreover, they lack the
ability to handle the low-resource problem which could often happen in practice
considering the enormous amount of textual data online. In this paper, we
present a coherence-based contrastive learning model named CoCo to detect the
possible MGT under low-resource scenario. Inspired by the distinctiveness and
permanence properties of linguistic feature, we represent text as a coherence
graph to capture its entity consistency, which is further encoded by the
pretrained model and graph neural network. To tackle the challenges of data
limitations, we employ a contrastive learning framework and propose an improved
contrastive loss for making full use of hard negative samples in training
stage. The experiment results on two public datasets prove our approach
outperforms the state-of-art methods significantly.
- Abstract(参考訳): HWT(Human-Written Text)からMGTを識別するタスクであるMGT検出(Machine-Generated Text)は,近年,人間の書体スタイルを模倣するテキスト生成モデルの誤用を防止する上で重要な役割を担っている。
最新の検出器は通常、粗いテキストシーケンスを入力として、標準のクロスエントロピー損失を持つ微調整されたモデルによって良い結果を出力する。
しかし、これらの手法はテキストの言語的側面(例えばコヒーレンス)や文レベルの構造を考慮できない。
さらに、オンラインの膨大なテキストデータを考えると、実際に起こりうる低リソースの問題に対処する能力が欠如している。
本稿では,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴の特異性と永続性に着想を得て、テキストをコヒーレンスグラフとして表現し、そのエンティティの一貫性を捉え、事前訓練されたモデルとグラフニューラルネットワークによってさらに符号化される。
データ制限の課題に取り組むため,我々はコントラスト学習フレームワークを採用し,トレーニング段階でハードネガティブなサンプルをフル活用するためのコントラスト損失の改善を提案する。
2つの公開データセットに対する実験結果は、我々のアプローチが最先端の手法を大きく上回っていることを証明している。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Critic-Driven Decoding for Mitigating Hallucinations in Data-to-text
Generation [5.304395026626743]
入力に埋もれていないテキストの幻覚は、ニューラルネットワークによるテキスト生成においてよく知られた問題である。
生成言語モデルの確率的出力と特別な「テキスト評論家」の出力を組み合わせることで幻覚を緩和する新しい方法を提案する。
本手法では,LMのアーキテクチャやトレーニング手順の変更は不要である。
論文 参考訳(メタデータ) (2023-10-25T20:05:07Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Search and Learn: Improving Semantic Coverage for Data-to-Text
Generation [30.07712039293558]
本研究では,テキスト生成に焦点をあてる。
本稿では,事前学習された言語モデルを活用する検索学習手法を提案する。
実験の結果,E2E と WikiBio のデータセットで高い性能が得られた。
論文 参考訳(メタデータ) (2021-12-06T03:51:56Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。