論文の概要: Authorship Attribution in Multilingual Machine-Generated Texts
- arxiv url: http://arxiv.org/abs/2508.01656v1
- Date: Sun, 03 Aug 2025 08:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.993755
- Title: Authorship Attribution in Multilingual Machine-Generated Texts
- Title(参考訳): 多言語機械生成テキストにおけるオーサリング属性
- Authors: Lucio La Cava, Dominik Macko, Róbert Móro, Ivan Srba, Andrea Tagarelli,
- Abstract要約: LLM(Large Language Models)は、人間のような流布とコヒーレンスに到達した。
機械生成テキスト(MGT)と人間が書いたコンテンツとを区別することはますます困難になっている。
オーサシップ属性(AA)は、テキストの背後にある正確なジェネレータ(LLMまたは人間)を特定することができる。
- 参考スコア(独自算出の注目度): 4.72856928143484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) have reached human-like fluency and coherence, distinguishing machine-generated text (MGT) from human-written content becomes increasingly difficult. While early efforts in MGT detection have focused on binary classification, the growing landscape and diversity of LLMs require a more fine-grained yet challenging authorship attribution (AA), i.e., being able to identify the precise generator (LLM or human) behind a text. However, AA remains nowadays confined to a monolingual setting, with English being the most investigated one, overlooking the multilingual nature and usage of modern LLMs. In this work, we introduce the problem of Multilingual Authorship Attribution, which involves attributing texts to human or multiple LLM generators across diverse languages. Focusing on 18 languages -- covering multiple families and writing scripts -- and 8 generators (7 LLMs and the human-authored class), we investigate the multilingual suitability of monolingual AA methods, their cross-lingual transferability, and the impact of generators on attribution performance. Our results reveal that while certain monolingual AA methods can be adapted to multilingual settings, significant limitations and challenges remain, particularly in transferring across diverse language families, underscoring the complexity of multilingual AA and the need for more robust approaches to better match real-world scenarios.
- Abstract(参考訳): 大規模言語モデル (LLM) が人間の流布やコヒーレンスに到達し, 機械生成テキスト (MGT) と人文コンテンツとの区別がますます困難になっている。
MGT検出の初期の取り組みはバイナリ分類に焦点が当てられていたが、LLMの景観と多様性の増大は、よりきめ細やかで挑戦的な著者帰属(AA)、すなわちテキストの裏にある正確なジェネレータ(LLMまたは人間)を特定できる必要がある。
しかし、AA は現在でもモノリンガルな環境に限られており、英語が最も研究されている言語であり、現代の LLM の多言語の性質と使用法を見越している。
本研究では,多言語における多言語オーサリング属性の問題を紹介する。
対象は18言語(複数のファミリーとスクリプトを含む)と8つのジェネレータ(7 LLMと人間によるクラス)であり、モノリンガルAAメソッドの多言語適合性、それらの言語間転送性、およびジェネレータが帰属性能に与える影響について検討する。
以上の結果から,特定のモノリンガルAAメソッドは多言語設定に適応できるが,特に多言語家族間での移動において重要な制限や課題が残っており,マルチリンガルAAの複雑さと,現実のシナリオに合わせたより堅牢なアプローチの必要性が指摘されている。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Multilingual AMR-to-Text Generation [22.842874899794996]
20の異なる言語で生成する多言語AMR-to-textモデルを作成する。
自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。
我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。
論文 参考訳(メタデータ) (2020-11-10T22:47:14Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。