論文の概要: CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning
- arxiv url: http://arxiv.org/abs/2212.10341v2
- Date: Fri, 20 Oct 2023 13:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:57:32.323403
- Title: CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning
- Title(参考訳): CoCo: コントラスト学習によるデータ制限下でのコヒーレンス強化機械によるテキスト検出
- Authors: Xiaoming Liu, Zhaohan Zhang, Yichen Wang, Hang Pu, Yu Lan, Chao Shen
- Abstract要約: 低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。
2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
- 参考スコア(独自算出の注目度): 14.637303913878435
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine-Generated Text (MGT) detection, a task that discriminates MGT from
Human-Written Text (HWT), plays a crucial role in preventing misuse of text
generative models, which excel in mimicking human writing style recently.
Latest proposed detectors usually take coarse text sequences as input and
fine-tune pretrained models with standard cross-entropy loss. However, these
methods fail to consider the linguistic structure of texts. Moreover, they lack
the ability to handle the low-resource problem which could often happen in
practice considering the enormous amount of textual data online. In this paper,
we present a coherence-based contrastive learning model named CoCo to detect
the possible MGT under low-resource scenario. To exploit the linguistic
feature, we encode coherence information in form of graph into text
representation. To tackle the challenges of low data resource, we employ a
contrastive learning framework and propose an improved contrastive loss for
preventing performance degradation brought by simple samples. The experiment
results on two public datasets and two self-constructed datasets prove our
approach outperforms the state-of-art methods significantly. Also, we
surprisingly find that MGTs originated from up-to-date language models could be
easier to detect than these from previous models, in our experiments. And we
propose some preliminary explanations for this counter-intuitive phenomena. All
the codes and datasets are open-sourced.
- Abstract(参考訳): HWT(Human-Written Text)からMGTを識別するタスクであるMGT検出(Machine-Generated Text)は,近年,人間の書体スタイルを模倣するテキスト生成モデルの誤用を防止する上で重要な役割を担っている。
最新の検出器は、通常、粗いテキストシーケンスを標準のクロスエントロピー損失を持つ入力および微調整事前訓練されたモデルとみなす。
しかし、これらの手法はテキストの言語構造を考慮しない。
さらに、オンラインの膨大なテキストデータを考えると、実際に起こりうる低リソースの問題に対処する能力が欠如している。
本稿では,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を生かすために,コヒーレンス情報をグラフ形式でテキスト表現に符号化する。
低データ資源の課題に取り組むために,コントラスト学習フレームワークを採用し,簡易なサンプルによる性能低下を防止するためのコントラスト損失の改善を提案する。
実験の結果、2つの公開データセットと2つの自己構築データセットが得られた。
また,私たちの実験では,最新の言語モデルに由来するmgtsは,従来のモデルよりも検出しやすいことがわかった。
そして,この反直観現象の予備的な説明を提案する。
すべてのコードとデータセットはオープンソースである。
関連論文リスト
- Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Critic-Driven Decoding for Mitigating Hallucinations in Data-to-text
Generation [5.304395026626743]
入力に埋もれていないテキストの幻覚は、ニューラルネットワークによるテキスト生成においてよく知られた問題である。
生成言語モデルの確率的出力と特別な「テキスト評論家」の出力を組み合わせることで幻覚を緩和する新しい方法を提案する。
本手法では,LMのアーキテクチャやトレーニング手順の変更は不要である。
論文 参考訳(メタデータ) (2023-10-25T20:05:07Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Search and Learn: Improving Semantic Coverage for Data-to-Text
Generation [30.07712039293558]
本研究では,テキスト生成に焦点をあてる。
本稿では,事前学習された言語モデルを活用する検索学習手法を提案する。
実験の結果,E2E と WikiBio のデータセットで高い性能が得られた。
論文 参考訳(メタデータ) (2021-12-06T03:51:56Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。