論文の概要: CEAID: Benchmark of Multilingual Machine-Generated Text Detection Methods for Central European Languages
- arxiv url: http://arxiv.org/abs/2509.26051v1
- Date: Tue, 30 Sep 2025 10:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.507886
- Title: CEAID: Benchmark of Multilingual Machine-Generated Text Detection Methods for Central European Languages
- Title(参考訳): CEAID:中央ヨーロッパ言語における多言語機械によるテキスト検出手法のベンチマーク
- Authors: Dominik Macko, Jakub Kopal,
- Abstract要約: 中央ヨーロッパ言語に焦点をあてた検出手法の最初のベンチマークを提供する。
列車と言語の組み合わせを比較して、最もパフォーマンスの良いものを特定します。
中央ヨーロッパ諸語における監視された微調整検出器は、これらの言語で最も高性能である。
- 参考スコア(独自算出の注目度): 4.089936423985361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine-generated text detection, as an important task, is predominantly focused on English in research. This makes the existing detectors almost unusable for non-English languages, relying purely on cross-lingual transferability. There exist only a few works focused on any of Central European languages, leaving the transferability towards these languages rather unexplored. We fill this gap by providing the first benchmark of detection methods focused on this region, while also providing comparison of train-languages combinations to identify the best performing ones. We focus on multi-domain, multi-generator, and multilingual evaluation, pinpointing the differences of individual aspects, as well as adversarial robustness of detection methods. Supervised finetuned detectors in the Central European languages are found the most performant in these languages as well as the most resistant against obfuscation.
- Abstract(参考訳): 機械によるテキスト検出は重要な課題であり、主に研究における英語に焦点を当てている。
これにより、既存の検出器はほとんど英語以外の言語では使えなくなり、純粋に言語間移動性に依存している。
中央ヨーロッパのどの言語にも焦点を絞った研究はごくわずかであり、これらの言語への移動可能性については明らかにされていない。
このギャップを埋めるには、この領域に焦点をあてた最初の検出方法のベンチマークを提供し、また、最もパフォーマンスの良いものを特定するために、列車と言語の組み合わせの比較も提供する。
本研究は,複数領域,複数ジェネレータ,多言語評価に焦点をあて,個々の側面の違いを指摘し,検出手法の対角的ロバスト性に着目した。
中央ヨーロッパ諸語における監視された微調整検出器は、これらの言語で最も高性能であり、また難読化に対して最も耐性がある。
関連論文リスト
- MultiConAD: A Unified Multilingual Conversational Dataset for Early Alzheimer's Detection [12.803369138301163]
我々は16の認知症関連会話データセットを統合することでAD検出のための新しい多言語データセットを提案する。
第2に、MCIを含む細粒度分類を行い、スパーステキストと高密度テキスト表現を用いて様々な分類器を評価する。
第三に、単言語と多言語の設定で実験を行い、ある言語は多言語訓練の恩恵を受ける一方、他の言語は独立してより優れた性能を発揮することを発見した。
論文 参考訳(メタデータ) (2025-02-26T15:12:37Z) - Automatic Discrimination of Human and Neural Machine Translation in
Multilingual Scenarios [4.631167282648452]
我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
論文 参考訳(メタデータ) (2023-05-31T11:41:24Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Detecting Lexical Borrowings from Dominant Languages in Multilingual
Wordlists [3.096615629099617]
我々は,支配的な言語が重要な役割を担っている接触状況において,語彙借入検出のための新しい手法を検証した。
教師付き機械学習システムは古典的システムよりも優れており、全ての手法がうまく機能する。
検出誤りのレビューでは、受信語から異なる意味を持つドナー語を考慮し、借用検出を大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2023-02-01T02:44:28Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Multilingual and Cross-Lingual Intent Detection from Spoken Data [36.116844659291885]
MInDS-14は、発話データを用いた意図検出タスクのための最初のトレーニングおよび評価リソースです。
その結果、機械翻訳モデルと最先端の多言語文エンコーダを組み合わせると、強い意図検出ができることがわかった。
この作業は、発話データから多言語インテントディテクタをより包括的に開発および評価するための重要なステップであると考えています。
論文 参考訳(メタデータ) (2021-04-17T12:17:28Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。