Fugu-MT 論文翻訳(概要): CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts

論文の概要: CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts

arxiv url: http://arxiv.org/abs/2406.09056v2
Date: Mon, 11 Nov 2024 09:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.583199
Title: CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts
Title（参考訳）: CUDRT:人間対大言語モデル生成テキストの検出モデルのベンチマーク
Authors: Zhen Tao, Yanfang Chen, Dinghao Xi, Zhiyu Li, Wei Xu,
Abstract要約: 大規模言語モデル(LLM)は、産業全体にわたってテキスト生成を大幅に強化した。彼らの人間的なアウトプットは、人間とAIの作者の区別を困難にしている。現在のベンチマークは主に静的データセットに依存しており、モデルベースの検出器の評価の有効性を制限している。
参考スコア（独自算出の注目度）: 9.682499180341273
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) have greatly enhanced text generation across industries, their human-like outputs make distinguishing between human and AI authorship challenging. Although many LLM-generated text detectors exist, current benchmarks mainly rely on static datasets, limiting their effectiveness in assessing model-based detectors requiring prior training. Furthermore, these benchmarks focus on specific scenarios like question answering and text refinement and are primarily limited to English, overlooking broader linguistic applications and LLM subtleties. To address these gaps, we construct a comprehensive bilingual benchmark in Chinese and English to rigorously evaluate mainstream LLM-generated text detection methods. We categorize LLM text generation into five key operations-Create, Update, Delete, Rewrite, and Translate (CUDRT)-covering the full range of LLM activities. For each CUDRT category, we developed extensive datasets enabling thorough assessment of detection performance, incorporating the latest mainstream LLMs for each language. We also establish a robust evaluation framework to support scalable, reproducible experiments, facilitating an in-depth analysis of how LLM operations, different LLMs, datasets, and multilingual training sets impact detector performance, particularly for model-based methods. Our extensive experiments provide critical insights for optimizing LLM-generated text detectors and suggest future directions to improve detection accuracy and generalization across diverse scenarios.Source code and dataset are available at GitHub.
Abstract（参考訳）: 大規模言語モデル(LLM)は、業界全体でテキスト生成を大幅に強化しているが、人間のようなアウトプットは、人間とAIの作者の区別を困難にしている。 LLMの生成したテキスト検出器は数多く存在するが、現在のベンチマークは主に静的なデータセットに依存しており、事前のトレーニングを必要とするモデルベース検出器の評価の有効性を制限している。さらに、これらのベンチマークは、質問応答やテキストの洗練のような特定のシナリオに焦点を当てており、主に英語に限られており、より広範な言語的応用やLLMの微妙さを見渡せる。これらのギャップに対処するため、中国語と英語で総合的なバイリンガル・ベンチマークを構築し、主要なLLM生成テキスト検出手法を厳格に評価する。 LLM テキスト生成は,Create, Update, Delete, Rewrite, Translate (CUDRT) の5つの重要な操作に分類し,LLM の活動の全範囲を探索する。 CUDRTの各カテゴリに対して,各言語に最新のLLMを組み込んで,検出性能の徹底的な評価を可能にする広範囲なデータセットを開発した。また、スケーラブルで再現可能な実験をサポートするための堅牢な評価フレームワークを構築し、LLM操作、異なるLLM、データセット、多言語トレーニングセットが、特にモデルベースの手法において、検出器のパフォーマンスに与える影響を詳細に分析する。 LLM生成したテキスト検出を最適化するための重要な洞察を提供し、さまざまなシナリオにわたる検出精度と一般化を改善するための今後の方向性を提案する。

関連論文リスト

An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques [0.0]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を持って、自然言語処理の進歩を続けている。 CNN/Daily MailとNewsRoom(ニューズ)、SAMSum(ダイアログ)、ArXiv(サイエンティフィック)の4つのデータセットにまたがる6つのLCMを体系的に評価する。本研究では,ROUGEとBERTScoreの測定値を用いて評価を行った。 Longドキュメントには、短いコンテキストウィンドウを持つLLMが複数の段階で拡張入力を要約できる文ベースのチャンキング戦略が導入されている。
論文参考訳（メタデータ） (2025-07-07T15:34:05Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
"I know myself better, but not really greatly": Using LLMs to Detect and Explain LLM-Generated Texts [10.454446545249096]
大規模言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示した。本稿では,LLMによる人為的テキストの検出と説明機能について検討する。
論文参考訳（メタデータ） (2025-02-18T11:00:28Z)
VilBias: A Study of Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges [2.2751168722976587]
VLBiasは、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を活用して、ニュースコンテンツの言語的および視覚的バイアスを検出するフレームワークである。本稿では,多様なニュースソースからのテキストコンテンツと対応する画像からなるマルチモーダルデータセットを提案する。
論文参考訳（メタデータ） (2024-12-22T15:05:30Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。生成したテキストの強力な検出器を開発することがますます重要になっている。この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文参考訳（メタデータ） (2024-11-09T18:27:15Z)
GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文参考訳（メタデータ） (2024-10-31T08:30:55Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-18T07:25:00Z)
What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文参考訳（メタデータ） (2024-10-04T09:50:45Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
LLM-Detector: Improving AI-Generated Chinese Text Detection with Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。 LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文参考訳（メタデータ） (2024-02-02T05:54:12Z)
Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文参考訳（メタデータ） (2024-01-12T13:23:21Z)
Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文参考訳（メタデータ） (2024-01-12T09:29:13Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。 LLMのほとんどの研究は英語に限られている。これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文参考訳（メタデータ） (2023-03-22T13:03:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。