Fugu-MT 論文翻訳(概要): MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark

論文の概要: MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark

arxiv url: http://arxiv.org/abs/2310.13606v1
Date: Fri, 20 Oct 2023 15:57:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 22:05:33.097249
Title: MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark
Title（参考訳）: multitude: 大規模多言語機械生成テキスト検出ベンチマーク
Authors: Dominik Macko, Robert Moro, Adaku Uchendu, Jason Samuel Lucas, Michiharu Yamashita, Mat\'u\v{s} Pikuliak, Ivan Srba, Thai Le, Dongwon Lee, Jakub Simko, Maria Bielikova
Abstract要約: MultiTuDEは、多言語マシン生成テキスト検出のための新しいベンチマークデータセットである。 11の言語で74,081の認証テキストと機械生成テキストで構成されている。ゼロショット(統計とブラックボックス)と微調整検出器の性能を比較した。
参考スコア（独自算出の注目度）: 10.92793962395538
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is a lack of research into capabilities of recent LLMs to generate convincing text in languages other than English and into performance of detectors of machine-generated text in multilingual settings. This is also reflected in the available benchmarks which lack authentic texts in languages other than English and predominantly cover older generators. To fill this gap, we introduce MULTITuDE, a novel benchmarking dataset for multilingual machine-generated text detection comprising of 74,081 authentic and machine-generated texts in 11 languages (ar, ca, cs, de, en, es, nl, pt, ru, uk, and zh) generated by 8 multilingual LLMs. Using this benchmark, we compare the performance of zero-shot (statistical and black-box) and fine-tuned detectors. Considering the multilinguality, we evaluate 1) how these detectors generalize to unseen languages (linguistically similar as well as dissimilar) and unseen LLMs and 2) whether the detectors improve their performance when trained on multiple languages.
Abstract（参考訳）: 英語以外の言語で説得力のあるテキストを生成する最近のllmの能力や、多言語環境で機械生成テキストの検出性能に関する研究が不足している。これは、英語以外の言語で真正のテキストがなく、主に古いジェネレータをカバーする利用可能なベンチマークにも反映されている。このギャップを埋めるために,多言語 LLM が生成する 11 言語 (ar, ca, cs, de, en, es, nl, pt, ru, uk, zh) で,74,081 個の認証および機械生成テキストからなる,多言語機械生成テキスト検出のためのベンチマークデータセットである MultiTuDE を導入する。このベンチマークを用いてゼロショット(統計的およびブラックボックス)と微調整検出器の性能を比較する。多言語性を考えると 1) これらの検出器の一般化方法(言語学的に類似しており、異種と類似している)と未知のLLM 2) 複数の言語で学習すると,検出器の性能が向上する。

関連論文リスト

PolyPrompt: Automating Knowledge Extraction from Multilingual Language Models with Dynamic Prompt Generation [0.0]
大規模言語モデル(LLM)の多言語機能を強化するための新しいパラメータ効率フレームワークであるPolyPromptを紹介する。提案手法では,各言語に対するトリガトークンの集合を勾配に基づく探索により学習し,入力クエリの言語を識別し,推論中にプロンプトにプリコンパイルされた対応するトリガトークンを選択する。我々は20億のパラメータモデルで実験を行い、15の類型的および資源的多様言語にわたる世界MMLUベンチマークで評価を行い、ナイーブおよびトランスレーショナル・ピペリンベースラインと比較して3.7%-19.9%の精度向上を示した。
論文参考訳（メタデータ） (2025-02-27T04:41:22Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
MultiSocial: Multilingual Benchmark of Machine-Generated Text Detection of Social-Media Texts [0.6053347262128919]
MultiSocial データセットには 472,097 のテキストが含まれており、そのうち約58k が人文で書かれている。このベンチマークを用いて、ゼロショットの既存の検出手法と微調整形式を比較した。以上の結果から,微調整された検出器はソーシャルメディア上でのトレーニングに問題はないことが示唆された。
論文参考訳（メタデータ） (2024-06-18T12:26:09Z)
CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts [9.682499180341273]
大規模言語モデル(LLM)は、産業全体にわたってテキスト生成を大幅に強化した。彼らの人間的なアウトプットは、人間とAIの作者の区別を困難にしている。現在のベンチマークは主に静的データセットに依存しており、モデルベースの検出器の評価の有効性を制限している。
論文参考訳（メタデータ） (2024-06-13T12:43:40Z)
KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文参考訳（メタデータ） (2024-02-21T10:09:56Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
Revisiting non-English Text Simplification: A Unified Multilingual Benchmark [14.891068432456262]
本稿では,12言語に170万以上の複雑な文対を含む27のリソースの集合であるMultiSimベンチマークを紹介する。事前学習した多言語言語モデルを用いたMultiSimを用いた実験により,非英語環境での多言語学習によるエキサイティングな性能向上が示された。
論文参考訳（メタデータ） (2023-05-25T03:03:29Z)
Decomposed Prompting for Machine Translation Between Related Languages using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。 DecoMTはBLOOMモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-22T14:52:47Z)
AfroMT: Pretraining Strategies and Reproducible Benchmarks for Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。 11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文参考訳（メタデータ） (2021-09-10T07:45:21Z)
Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文参考訳（メタデータ） (2021-04-15T16:08:43Z)
Language Detection Engine for Multilingual Texting on Mobile Devices [0.415623340386296]
全世界で20億人以上のモバイルユーザーがソフトキーボードで複数の言語を入力している。単言語キーボードでは、誤訂正された単語の38%が別の言語で有効である。多言語タイピングのための高速で軽量で正確な言語検出エンジン(LDE)を提案する。
論文参考訳（メタデータ） (2021-01-07T16:49:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。