論文の概要: KIT-TIP-NLP at MultiPride: Continual Learning with Multilingual Foundation Model
- arxiv url: http://arxiv.org/abs/2605.13415v2
- Date: Mon, 18 May 2026 00:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.889971
- Title: KIT-TIP-NLP at MultiPride: Continual Learning with Multilingual Foundation Model
- Title(参考訳): マルチプライドにおけるKIT-TIP-NLP:多言語基礎モデルによる連続学習
- Authors: Barathi Ganesh HB, Michal Ptaszynski, Rene Melendez, Juuso Eronen,
- Abstract要約: このフレームワークは、データ不足、クラス不均衡、感情表現の言語間変異といった、相互に絡み合った3つの方法論的課題を処理する。
クロスバリデーションによるデータ駆動モデル選択、バックトランスレーションによるセマンティック保存強化、動的エポックレベルのアンダーサンプリングによるインダクティブトランスファー学習、ドメイン固有の知識注入を統合する。
RUN 1 は拡張とアンダーサンプリングによる帰納的伝達学習であり、RUN 2 はマスク付き言語モデリング事前学習、RUN 3 と RUN 4 は ROC 分析によって最適化された言語固有の決定しきい値によって改善された以前の予測である。
- 参考スコア(独自算出の注目度): 0.06999740786886534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a multi-stage framework for detecting reclaimed slurs in multilingual social media discourse. It addresses the challenge of identifying reclamatory versus non-reclamatory usage of LGBTQ+-related slurs across English, Spanish, and Italian tweets. The framework handles three intertwined methodological challenges like data scarcity, class imbalance, and cross-linguistic variation in sentiment expression. It integrates data-driven model selection via cross-validation, semantic-preserving augmentation through back-translation, inductive transfer learning with dynamic epoch-level undersampling, and domain-specific knowledge injection via masked language modeling. Eight multilingual embedding models were evaluated systematically, with XLM-RoBERTa selected as the foundation model based on macro-averaged F1 score. Data augmentation via GPT-4o-mini back-translation to alternate languages effectively tripled the training corpus while preserving semantic content and class distribution ratios. The framework produces four final runs for the evaluation purposes where RUN 1 is inductive transfer learning with augmentation and undersampling, RUN 2 with masked language modeling pre-training, RUN 3 and RUN 4 are previous predictions refined via language-specific decision thresholds optimized via ROC analysis. Language-specific threshold refinement reveals that optimal decision boundaries vary significantly across languages. This reflects distributional differences in model confidence scores and linguistic variation in reclamatory language usage. The threshold-based optimization yields 2-5% absolute F1 improvement without requiring model retraining. The methodology is fully reproducible, with all code and experimental setup available at https://github.com/rbg-research/MultiPRIDE-Evalita-2026.
- Abstract(参考訳): 本稿では,多言語ソーシャルメディアにおける再生スラリー検出のための多段階フレームワークを提案する。
これは、英語、スペイン語、およびイタリア語のツイートでLGBTQ+関連のスラリーのリラクティブと非宣言的使用を識別する課題に対処する。
このフレームワークは、データ不足、クラス不均衡、感情表現の言語間変異といった、相互に絡み合った3つの方法論的課題を処理する。
クロスバリデーションによるデータ駆動モデル選択、バックトランスレーションによるセマンティック保存強化、動的エポックレベルのアンダーサンプリングによるインダクティブトランスファー学習、マスキング言語モデリングによるドメイン固有の知識注入を統合する。
マクロ平均F1スコアに基づいて,XLM-RoBERTaを基礎モデルとして,8つの多言語埋め込みモデルを体系的に評価した。
GPT-4o-miniによる代替言語へのバックトランスレーションによるデータ拡張は、セマンティックな内容とクラス分布の比率を保ちながら、トレーニングコーパスを効果的に3倍にした。
このフレームワークは、RUN 1が拡張とアンダーサンプリングによる帰納的伝達学習である評価目的、マスク付き言語モデリング事前学習を備えたRUN 2、RUN 3およびRUN 4が、ROC分析によって最適化された言語固有の決定しきい値を介して改善された以前の予測である4つの最終実行を生成する。
言語固有のしきい値改善は、最適な決定境界が言語によって大きく異なることを示している。
これは、モデル信頼度スコアの分布的差異と、リラミトリ言語使用時の言語的変化を反映している。
しきい値に基づく最適化は、モデルの再トレーニングを必要とせずに、2-5%の絶対F1の改善をもたらす。
この方法論は完全に再現可能で、すべてのコードと実験的なセットアップはhttps://github.com/rbg-research/MultiPRIDE-Evalita-2026で利用可能である。
関連論文リスト
- Cross-Language Speaker Attribute Prediction Using MIL and RL [0.48998185508205744]
言語的変化, ドメインミスマッチ, 言語間のデータ不均衡を考慮した多言語話者属性予測について検討した。
強化多重インスタンス学習フレームワークの多言語拡張である RLMIL-DAT を提案する。
性別と年齢の予測のためのゼロショット設定で,VoxCeleb2由来の5言語Twitterコーパスと40言語をカバーするVoxCeleb2派生コーパスのアプローチを評価した。
論文 参考訳(メタデータ) (2026-01-06T23:07:26Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - A New Method for Cross-Lingual-based Semantic Role Labeling [5.992526851963307]
英語とペルシア語のセマンティック・ロール・ラベリングを訓練するためのディープラーニングアルゴリズムが提案されている。
その結果,Niksirt et al.のモデルと比較すると,有意な改善が認められた。
セマンティックロールラベリングのための言語間メソッドの開発は、約束を守る。
論文 参考訳(メタデータ) (2024-08-28T16:06:12Z) - Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Improving the Cross-Lingual Generalisation in Visual Question Answering [40.86774711775718]
多言語視覚言語事前学習モデルは、非英語データに適用した場合、言語間一般化が不十分であることを示す。
本研究は、ゼロショット言語間視覚質問応答(VQA)タスクにおいて、これらのモデルの低性能について検討する。
我々は,(1)類似性に基づく損失によるクロスエントロピー損失を増大させる言語的事前目標を導入し,トレーニング中にモデルを導くこと,(2)言語的一般化を改善し,モデルの修正を伴わずに分散を低減するタスク固有のサブネットワークを学習すること,(3)合成コードを用いたトレーニング例を強化すること,の3つの戦略を用いて言語的事前移動を改善する。
論文 参考訳(メタデータ) (2022-09-07T08:07:43Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Boosting Cross-Lingual Transfer via Self-Learning with Uncertainty
Estimation [34.97086123805344]
最近の多言語事前訓練型言語モデルは、目覚ましいゼロショット性能を実現している。
対象言語のラベルのないデータをさらに活用する自己学習フレームワークを提案する。
我々は,NER(Nond Entity Recognition)とNLI(Natural Language Inference)の2つの言語間タスクについて,40言語を網羅した不確実性で評価した。
論文 参考訳(メタデータ) (2021-09-01T05:26:46Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。