論文の概要: PolyLingua: Margin-based Inter-class Transformer for Robust Cross-domain Language Detection
- arxiv url: http://arxiv.org/abs/2512.08143v2
- Date: Wed, 10 Dec 2025 18:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 13:10:24.476907
- Title: PolyLingua: Margin-based Inter-class Transformer for Robust Cross-domain Language Detection
- Title(参考訳): PolyLingua:ロバストなクロスドメイン言語検出のためのMarginベースのクラス間変換器
- Authors: Ali Lotfi Rezaabad, Bikram Khanal, Shashwat Chaurasia, Lu Zeng, Dezhi Hong, Hossein Bashashati, Thomas Butler, Megan Ganji,
- Abstract要約: PolyLinguaは、ドメイン内言語検出ときめ細かい言語分類のための軽量なTransformerベースのモデルである。
インスタンスレベルの分離とクラスレベルのアライメントとアダプティブマージンを組み合わせた2段階のコントラスト学習フレームワークを採用している。
99.25% F1と98.15% F1をそれぞれ達成し、Sonnet 3.5を10倍のパラメータで上回っている。
- 参考スコア(独自算出の注目度): 6.237314351305131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language identification is a crucial first step in multilingual systems such as chatbots and virtual assistants, enabling linguistically and culturally accurate user experiences. Errors at this stage can cascade into downstream failures, setting a high bar for accuracy. Yet, existing language identification tools struggle with key cases -- such as music requests where the song title and user language differ. Open-source tools like LangDetect, FastText are fast but less accurate, while large language models, though effective, are often too costly for low-latency or low-resource settings. We introduce PolyLingua, a lightweight Transformer-based model for in-domain language detection and fine-grained language classification. It employs a two-level contrastive learning framework combining instance-level separation and class-level alignment with adaptive margins, yielding compact and well-separated embeddings even for closely related languages. Evaluated on two challenging datasets -- Amazon Massive (multilingual digital assistant utterances) and a Song dataset (music requests with frequent code-switching) -- PolyLingua achieves 99.25% F1 and 98.15% F1, respectively, surpassing Sonnet 3.5 while using 10x fewer parameters, making it ideal for compute- and latency-constrained environments.
- Abstract(参考訳): 言語識別は、チャットボットや仮想アシスタントのような多言語システムにおける重要な第一歩であり、言語的かつ文化的に正確なユーザー体験を可能にする。
この段階でのエラーは下流の障害にカスケードし、精度の高いバーを設定する。
しかし、既存の言語識別ツールは、曲のタイトルとユーザ言語が異なる音楽要求など、重要なケースで苦労している。
LangDetectやFastTextといったオープンソースツールは高速だが正確ではない。
ドメイン内言語検出と細粒度言語分類のための軽量トランスフォーマーモデルであるPolyLinguaを紹介する。
インスタンスレベルの分離とクラスレベルのアライメントとアダプティブマージンを組み合わせた2段階のコントラスト学習フレームワークを採用しており、密接な関係のある言語に対してさえ、コンパクトで十分に分離された埋め込みをもたらす。
Amazon Massive(複数のデジタルアシスタントの発話)とSongデータセット(頻繁なコードスイッチングを伴う音楽要求)の2つの困難なデータセットで評価されている。PolyLinguaは99.25%のF1と98.15%のF1を達成した。
関連論文リスト
- Language steering in latent space to mitigate unintended code-switching [1.1330938617817454]
大きな言語モデル(LLM)は意図しないコードスイッチングを示し、下流タスクの信頼性を低下させる。
並列翻訳におけるPCAによる言語方向を識別する軽量な推論時間法である潜在空間言語ステアリングを提案する。
提案手法は,計算オーバーヘッドの少ないセマンティクスを保ちながら,コードスイッチングを緩和する。
論文 参考訳(メタデータ) (2025-10-11T19:49:38Z) - SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset [34.40254709148148]
コードスイッチング(Code-Switching, CS)とは、会話や発話の中で2つ以上の言語を交互に使用する方法である。
この言語現象は、自動音声認識(ASR)システムに課題をもたらす。
textbfSwitchLinguaは、最初の大規模多言語および多民族のコードスイッチングデータセットである。
論文 参考訳(メタデータ) (2025-05-30T05:54:46Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。