論文の概要: Leveraging Multilingual Training for Authorship Representation: Enhancing Generalization across Languages and Domains
- arxiv url: http://arxiv.org/abs/2509.16531v1
- Date: Sat, 20 Sep 2025 04:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.84032
- Title: Leveraging Multilingual Training for Authorship Representation: Enhancing Generalization across Languages and Domains
- Title(参考訳): オーサシップ表現のための多言語学習の活用:言語とドメイン間の一般化の促進
- Authors: Junghwan Kim, Haotian Zhang, David Jurgens,
- Abstract要約: オーサシップ表現(AR)学習は,オーサシップ帰属タスクにおいて高いパフォーマンスを示している。
本稿では,2つの重要なイノベーションを取り入れた多言語AR学習手法を提案する。
私たちのモデルは36の言語と13のドメインにわたる450万以上の著者でトレーニングされています。
- 参考スコア(独自算出の注目度): 41.44674318564781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship representation (AR) learning, which models an author's unique writing style, has demonstrated strong performance in authorship attribution tasks. However, prior research has primarily focused on monolingual settings-mostly in English-leaving the potential benefits of multilingual AR models underexplored. We introduce a novel method for multilingual AR learning that incorporates two key innovations: probabilistic content masking, which encourages the model to focus on stylistically indicative words rather than content-specific words, and language-aware batching, which improves contrastive learning by reducing cross-lingual interference. Our model is trained on over 4.5 million authors across 36 languages and 13 domains. It consistently outperforms monolingual baselines in 21 out of 22 non-English languages, achieving an average Recall@8 improvement of 4.85%, with a maximum gain of 15.91% in a single language. Furthermore, it exhibits stronger cross-lingual and cross-domain generalization compared to a monolingual model trained solely on English. Our analysis confirms the effectiveness of both proposed techniques, highlighting their critical roles in the model's improved performance.
- Abstract(参考訳): 著者の独特な執筆スタイルをモデル化したオーサシップ表現(AR)学習は、オーサシップ帰属タスクにおいて強いパフォーマンスを示している。
しかし、先行研究は主にモノリンガル設定に焦点を当てており、主に探索されていない多言語ARモデルの潜在的な利点を英語で解決することに焦点を当てている。
本稿では,確率的コンテンツマスキング(probabilistic content masking)という2つの重要なイノベーションを取り入れた,多言語AR学習の新しい手法を提案する。
私たちのモデルは36の言語と13のドメインにわたる450万以上の著者でトレーニングされています。
22の非英語言語のうち21の言語ベースラインを一貫して上回り、平均的なRecall@8の改善は4.85%、最大15.91%である。
さらに、英語のみに訓練された単言語モデルと比較して、クロス言語とクロスドメインの一般化が強い。
提案手法の有効性を検証し,モデルの性能向上におけるそれらの重要な役割を明らかにする。
関連論文リスト
- UniBERT: Adversarial Training for Language-Universal Representations [2.294953003828613]
UniBERTは、マスク付き言語モデリング、敵対的トレーニング、知識蒸留という3つのコンポーネントを統合する革新的なトレーニングフレームワークを使用する、コンパクトな多言語言語モデルである。
UniBERTは、様々な自然言語処理タスクの競合性能を維持しながら、大規模モデルの計算要求を減らすように設計されている。
論文 参考訳(メタデータ) (2025-03-16T18:44:06Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Sabi\'a: Portuguese Large Language Models [14.801853435122908]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。
ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文 参考訳(メタデータ) (2023-04-16T20:11:19Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。