論文の概要: Beyond Turing: A Comparative Analysis of Approaches for Detecting
Machine-Generated Text
- arxiv url: http://arxiv.org/abs/2311.12373v2
- Date: Tue, 23 Jan 2024 07:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:56:22.194026
- Title: Beyond Turing: A Comparative Analysis of Approaches for Detecting
Machine-Generated Text
- Title(参考訳): Beyond Turing: 機械生成テキスト検出のためのアプローチの比較分析
- Authors: Muhammad Farid Adilazuarda
- Abstract要約: 従来の浅層学習,言語モデル(LM)微調整,多言語モデル微調整の評価を行った。
結果は、メソッド間でのパフォーマンスにかなりの違いが示される。
この研究は、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開くものである。
- 参考スコア(独自算出の注目度): 1.919654267936118
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Significant progress has been made on text generation by pre-trained language
models (PLMs), yet distinguishing between human and machine-generated text
poses an escalating challenge. This paper offers an in-depth evaluation of
three distinct methods used to address this task: traditional shallow learning,
Language Model (LM) fine-tuning, and Multilingual Model fine-tuning. These
approaches are rigorously tested on a wide range of machine-generated texts,
providing a benchmark of their competence in distinguishing between
human-authored and machine-authored linguistic constructs. The results reveal
considerable differences in performance across methods, thus emphasizing the
continued need for advancement in this crucial area of NLP. This study offers
valuable insights and paves the way for future research aimed at creating
robust and highly discriminative models.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)によるテキスト生成において、人間と機械生成したテキストの区別はエスカレートする課題である。
本稿では,従来の浅層学習,言語モデル(lm)の微調整,多言語モデルの微調整の3つの方法について詳細な評価を行う。
これらのアプローチは、さまざまなマシン生成テキストで厳格にテストされ、人間と機械による言語構造を区別する能力のベンチマークを提供する。
これらの結果から,NLPの重要領域における進歩の必要性が強調された。
この研究は価値ある洞察を与え、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開く。
関連論文リスト
- RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。
本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。
その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文 参考訳(メタデータ) (2024-10-22T03:21:59Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Analysis of the Evolution of Advanced Transformer-Based Language Models:
Experiments on Opinion Mining [0.5735035463793008]
本稿では,最先端のトランスフォーマーに基づく言語モデルの意見マイニングにおける挙動について検討する。
私たちの比較研究は、フォーカスするアプローチに関して、プロダクションエンジニアがリードし、道を開く方法を示しています。
論文 参考訳(メタデータ) (2023-08-07T01:10:50Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Language Model Evaluation in Open-ended Text Generation [0.76146285961466]
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。
そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
論文 参考訳(メタデータ) (2021-08-08T06:16:02Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。