Fugu-MT 論文翻訳(概要): A Simple yet Efficient Ensemble Approach for AI-generated Text Detection

論文の概要: A Simple yet Efficient Ensemble Approach for AI-generated Text Detection

arxiv url: http://arxiv.org/abs/2311.03084v2
Date: Wed, 8 Nov 2023 04:28:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 12:47:23.005896
Title: A Simple yet Efficient Ensemble Approach for AI-generated Text Detection
Title（参考訳）: AI生成テキスト検出のためのシンプルで効率的なアンサンブルアプローチ
Authors: Harika Abburi, Kalyani Roy, Michael Suesserman, Nirmala Pudota, Balaji Veeramani, Edward Bowen, Sanmitra Bhattacharya
Abstract要約: 大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
参考スコア（独自算出の注目度）: 0.5840089113969194
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent Large Language Models (LLMs) have demonstrated remarkable capabilities in generating text that closely resembles human writing across wide range of styles and genres. However, such capabilities are prone to potential abuse, such as fake news generation, spam email creation, and misuse in academic assignments. Hence, it is essential to build automated approaches capable of distinguishing between artificially generated text and human-authored text. In this paper, we propose a simple yet efficient solution to this problem by ensembling predictions from multiple constituent LLMs. Compared to previous state-of-the-art approaches, which are perplexity-based or uses ensembles with a number of LLMs, our condensed ensembling approach uses only two constituent LLMs to achieve comparable performance. Experiments conducted on four benchmark datasets for generative text classification show performance improvements in the range of 0.5 to 100\% compared to previous state-of-the-art approaches. We also study the influence that the training data from individual LLMs have on model performance. We found that substituting commercially-restrictive Generative Pre-trained Transformer (GPT) data with data generated from other open language models such as Falcon, Large Language Model Meta AI (LLaMA2), and Mosaic Pretrained Transformers (MPT) is a feasible alternative when developing generative text detectors. Furthermore, to demonstrate zero-shot generalization, we experimented with an English essays dataset, and results suggest that our ensembling approach can handle new data effectively.
Abstract（参考訳）: 近年のLarge Language Models (LLMs) は、幅広いスタイルやジャンルにまたがる人間の文章によく似たテキストを生成する際、顕著な能力を示した。しかし、そのような機能は、偽ニュースの生成、スパムメールの作成、学術課題の誤用など、潜在的な悪用につながる可能性がある。したがって、人工的なテキストと人間によるテキストを区別できる自動化アプローチを構築することが不可欠である。本稿では,複数の構成 LLM からの予測を組み込むことにより,この問題に対する簡易かつ効率的な解法を提案する。従来のパープレキシティベースや多数のllmを持つアンサンブルを使用する最先端のアプローチと比較して,コンデンスドセンスリングアプローチは,同等のパフォーマンスを達成するために2つの構成llmのみを使用する。生成テキスト分類のための4つのベンチマークデータセットで行った実験では、以前の最先端のアプローチと比較して0.5から100\%の性能が向上した。また,LLMのトレーニングデータがモデル性能に与える影響についても検討した。我々は、Falcon、Large Language Model Meta AI(LLaMA2)、Mosaic Pretrained Transformer(MPT)といった他のオープン言語モデルから生成されたデータと、商業的に制限された生成前変換器(GPT)データを置換することが、生成テキスト検出器の開発において実現可能な代替手段であることを見出した。さらに,ゼロショット一般化を実証するために,英文エッセイデータセットを実験し,提案手法が新たなデータを効果的に処理できることを示す。

関連論文リスト

Assessing Classical Machine Learning and Transformer-based Approaches for Detecting AI-Generated Research Text [0.0]
機械学習アプローチは、ChatGPT-3.5生成したテキストと人間のテキストを区別することができる。 DistilBERTは全体的な最高のパフォーマンスを達成し、Logistic RegressionとBERT-Customはしっかりとしたバランスの取れた代替手段を提供する。
論文参考訳（メタデータ） (2025-09-20T04:36:21Z)
RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文参考訳（メタデータ） (2025-08-18T17:59:15Z)
SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-05-19T17:57:36Z)
Synthetic Text Generation for Training Large Language Models via Gradient Matching [27.74603049449281]
合成可読テキストを生成するための理論的に厳密な最初のアプローチを提案する。生成した合成テキストは、実際のデータを微調整して得られた解の近傍にモデルを収束させることを保証できる。
論文参考訳（メタデータ） (2025-02-24T19:49:15Z)
GALOT: Generative Active Learning via Optimizable Zero-shot Text-to-image Generation [21.30138131496276]
本稿では,ゼロショットテキスト・トゥ・イメージ(T2I)合成とアクティブラーニングを統合した。我々はAL基準を利用してテキスト入力を最適化し、より情報的で多様なデータサンプルを生成する。このアプローチは、モデルトレーニングの効率を高めながら、データ収集とアノテーションのコストを削減します。
論文参考訳（メタデータ） (2024-12-18T18:40:21Z)
Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。生成したテキストの強力な検出器を開発することがますます重要になっている。この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文参考訳（メタデータ） (2024-11-09T18:27:15Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts [9.682499180341273]
大規模言語モデル(LLM)は、産業全体にわたってテキスト生成を大幅に強化した。彼らの人間的なアウトプットは、人間とAIの作者の区別を困難にしている。現在のベンチマークは主に静的データセットに依存しており、モデルベースの検出器の評価の有効性を制限している。
論文参考訳（メタデータ） (2024-06-13T12:43:40Z)
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文参考訳（メタデータ） (2024-05-07T12:57:01Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文参考訳（メタデータ） (2023-10-17T03:21:43Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions [30.464763055981933]
大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためにテキストデータを生成するために用いられる。 LLMベースのテキストデータ生成において,高い多様性と精度を実現するために,人間とAIのパートナーシップを検討する。
論文参考訳（メタデータ） (2023-06-07T04:27:09Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。