論文の概要: Cross-Language Speaker Attribute Prediction Using MIL and RL
- arxiv url: http://arxiv.org/abs/2601.04257v1
- Date: Tue, 06 Jan 2026 23:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.831511
- Title: Cross-Language Speaker Attribute Prediction Using MIL and RL
- Title(参考訳): MILとRLを用いたクロスランゲージ話者属性予測
- Authors: Sunny Shu, Seyed Sahand Mohammadi Ziabari, Ali Mohammed Mansoor Alsahag,
- Abstract要約: 言語的変化, ドメインミスマッチ, 言語間のデータ不均衡を考慮した多言語話者属性予測について検討した。
強化多重インスタンス学習フレームワークの多言語拡張である RLMIL-DAT を提案する。
性別と年齢の予測のためのゼロショット設定で,VoxCeleb2由来の5言語Twitterコーパスと40言語をカバーするVoxCeleb2派生コーパスのアプローチを評価した。
- 参考スコア(独自算出の注目度): 0.48998185508205744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study multilingual speaker attribute prediction under linguistic variation, domain mismatch, and data imbalance across languages. We propose RLMIL-DAT, a multilingual extension of the reinforced multiple instance learning framework that combines reinforcement learning based instance selection with domain adversarial training to encourage language invariant utterance representations. We evaluate the approach on a five language Twitter corpus in a few shot setting and on a VoxCeleb2 derived corpus covering forty languages in a zero shot setting for gender and age prediction. Across a wide range of model configurations and multiple random seeds, RLMIL-DAT consistently improves Macro F1 compared to standard multiple instance learning and the original reinforced multiple instance learning framework. The largest gains are observed for gender prediction, while age prediction remains more challenging and shows smaller but positive improvements. Ablation experiments indicate that domain adversarial training is the primary contributor to the performance gains, enabling effective transfer from high resource English to lower resource languages by discouraging language specific cues in the shared encoder. In the zero shot setting on the smaller VoxCeleb2 subset, improvements are generally positive but less consistent, reflecting limited statistical power and the difficulty of generalizing to many unseen languages. Overall, the results demonstrate that combining instance selection with adversarial domain adaptation is an effective and robust strategy for cross lingual speaker attribute prediction.
- Abstract(参考訳): 言語的変化, ドメインミスマッチ, 言語間のデータ不均衡を考慮した多言語話者属性予測について検討した。
RLMIL-DATは強化型多言語学習フレームワークの多言語拡張であり、強化型学習に基づくインスタンス選択と、言語不変な発話表現を促進するためのドメイン逆学習を組み合わせたものである。
性別と年齢の予測のためのゼロショット設定で,VoxCeleb2由来の5言語Twitterコーパスと40言語をカバーするVoxCeleb2派生コーパスのアプローチを評価した。
RLMIL-DATは、さまざまなモデル構成と複数のランダムシードに対して、標準のマルチインスタンス学習とオリジナルの強化されたマルチインスタンス学習フレームワークと比較して、一貫してマクロF1を改善している。
性別の予測では最大の増加が見受けられるが、年齢の予測は依然として困難であり、より小さいが肯定的な改善を示している。
アブレーション実験により、ドメインの敵対的トレーニングがパフォーマンス向上の主要な要因であることが示され、共有エンコーダにおける言語固有の手がかりを回避し、高資源の英語から低リソースの言語への効果的な移行を可能にした。
より小さなVoxCeleb2サブセットのゼロショット設定では、改善は概して肯定的だが一貫性が低く、統計力の制限と多くの未確認言語への一般化の難しさを反映している。
その結果, 対数領域適応とインスタンス選択の組み合わせは, 言語間話者属性の予測に有効で堅牢な戦略であることが示唆された。
関連論文リスト
- Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。