論文の概要: MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection
Benchmark
- arxiv url: http://arxiv.org/abs/2310.13606v1
- Date: Fri, 20 Oct 2023 15:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:05:33.097249
- Title: MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection
Benchmark
- Title(参考訳): multitude: 大規模多言語機械生成テキスト検出ベンチマーク
- Authors: Dominik Macko, Robert Moro, Adaku Uchendu, Jason Samuel Lucas,
Michiharu Yamashita, Mat\'u\v{s} Pikuliak, Ivan Srba, Thai Le, Dongwon Lee,
Jakub Simko, Maria Bielikova
- Abstract要約: MultiTuDEは、多言語マシン生成テキスト検出のための新しいベンチマークデータセットである。
11の言語で74,081の認証テキストと機械生成テキストで構成されている。
ゼロショット(統計とブラックボックス)と微調整検出器の性能を比較した。
- 参考スコア(独自算出の注目度): 10.92793962395538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a lack of research into capabilities of recent LLMs to generate
convincing text in languages other than English and into performance of
detectors of machine-generated text in multilingual settings. This is also
reflected in the available benchmarks which lack authentic texts in languages
other than English and predominantly cover older generators. To fill this gap,
we introduce MULTITuDE, a novel benchmarking dataset for multilingual
machine-generated text detection comprising of 74,081 authentic and
machine-generated texts in 11 languages (ar, ca, cs, de, en, es, nl, pt, ru,
uk, and zh) generated by 8 multilingual LLMs. Using this benchmark, we compare
the performance of zero-shot (statistical and black-box) and fine-tuned
detectors. Considering the multilinguality, we evaluate 1) how these detectors
generalize to unseen languages (linguistically similar as well as dissimilar)
and unseen LLMs and 2) whether the detectors improve their performance when
trained on multiple languages.
- Abstract(参考訳): 英語以外の言語で説得力のあるテキストを生成する最近のllmの能力や、多言語環境で機械生成テキストの検出性能に関する研究が不足している。
これは、英語以外の言語で真正のテキストがなく、主に古いジェネレータをカバーする利用可能なベンチマークにも反映されている。
このギャップを埋めるために,多言語 LLM が生成する 11 言語 (ar, ca, cs, de, en, es, nl, pt, ru, uk, zh) で,74,081 個の認証および機械生成テキストからなる,多言語機械生成テキスト検出のためのベンチマークデータセットである MultiTuDE を導入する。
このベンチマークを用いてゼロショット(統計的およびブラックボックス)と微調整検出器の性能を比較する。
多言語性を考えると
1) これらの検出器の一般化方法(言語学的に類似しており、異種と類似している)と未知のLLM
2) 複数の言語で学習すると,検出器の性能が向上する。
関連論文リスト
- Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings [22.71166607645311]
本稿では,最先端のバイリンガルテキスト埋め込みモデルについて紹介する。
これらのモデルは、最大8192トークンで長いテキスト入力を処理することができる。
STSタスクのモデル性能を大幅に改善しました。
我々は、ドイツ語とスペイン語の埋め込みモデルのベンチマークを含むように、Massive Text Embedding Benchmarkを拡張した。
論文 参考訳(メタデータ) (2024-02-26T20:53:12Z) - KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual
Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Revisiting non-English Text Simplification: A Unified Multilingual
Benchmark [14.891068432456262]
本稿では,12言語に170万以上の複雑な文対を含む27のリソースの集合であるMultiSimベンチマークを紹介する。
事前学習した多言語言語モデルを用いたMultiSimを用いた実験により,非英語環境での多言語学習によるエキサイティングな性能向上が示された。
論文 参考訳(メタデータ) (2023-05-25T03:03:29Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain
Readability Assessment [13.462025799236816]
自動多言語可読性評価のための大規模言語モデルの体系的研究と包括的評価を行う。
我々は、アラビア語、英語、フランス語、ヒンディー語、ロシア語で9757文の人間のアノテーションを付加した多言語マルチドメインデータセットであるReadMe++を構築した。
実験の結果、ReadMe++で微調整されたモデルは、単一ドメインデータセットでトレーニングされたモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T18:37:30Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Language Detection Engine for Multilingual Texting on Mobile Devices [0.415623340386296]
全世界で20億人以上のモバイルユーザーがソフトキーボードで複数の言語を入力している。
単言語キーボードでは、誤訂正された単語の38%が別の言語で有効である。
多言語タイピングのための高速で軽量で正確な言語検出エンジン(LDE)を提案する。
論文 参考訳(メタデータ) (2021-01-07T16:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。