論文の概要: ConLID: Supervised Contrastive Learning for Low-Resource Language Identification
- arxiv url: http://arxiv.org/abs/2506.15304v1
- Date: Wed, 18 Jun 2025 09:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.618881
- Title: ConLID: Supervised Contrastive Learning for Low-Resource Language Identification
- Title(参考訳): ConLID:低リソース言語識別のためのコントラスト学習
- Authors: Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut,
- Abstract要約: 低リソース言語に対するドメイン不変表現を学習するための新しい教師付きコントラスト学習(SCL)手法を提案する。
提案手法は,低リソース言語におけるドメイン外データのLID性能を3.2%向上させる。
- 参考スコア(独自算出の注目度): 14.504528263331075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language identification (LID) is a critical step in curating multilingual LLM pretraining corpora from web crawls. While many studies on LID model training focus on collecting diverse training data to improve performance, low-resource languages -- often limited to single-domain data, such as the Bible -- continue to perform poorly. To resolve these class imbalance and bias issues, we propose a novel supervised contrastive learning (SCL) approach to learn domain-invariant representations for low-resource languages. Through an extensive analysis, we show that our approach improves LID performance on out-of-domain data for low-resource languages by 3.2%, demonstrating its effectiveness in enhancing LID models.
- Abstract(参考訳): 言語識別(LID)は、Webクローラから多言語LLM事前学習コーパスをキュレートするための重要なステップである。
LIDモデルのトレーニングに関する多くの研究は、パフォーマンスを改善するために多様なトレーニングデータを集めることに重点を置いているが、低リソースの言語は、聖書のような単一ドメインのデータに制限されることが多い。
これらのクラス不均衡とバイアスの問題を解決するために、低リソース言語に対するドメイン不変表現を学習するための教師付きコントラスト学習(SCL)アプローチを提案する。
提案手法は,低リソース言語におけるドメイン外データのLID性能を3.2%向上させ,LIDモデルの強化効果を示す。
関連論文リスト
- Cross-Lingual Transfer for Low-Resource Natural Language Processing [0.32634122554914]
言語間移動学習は、NLPの性能を向上させるために、高ソース言語からのデータとモデルを活用する研究分野である。
この論文は、最先端のアノテーション投影法であるT-プロジェクションを用いて、データベースの転送を改善する新しい方法を提案する。
モデルベース転送では,ゼロショット設定で言語間連続ラベルを拡張可能な制約付き復号アルゴリズムを導入する。
最後に,最初の多言語テキスト・テキスト・メディカルモデルであるMedical mT5を開発した。
論文 参考訳(メタデータ) (2025-02-04T21:17:46Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - From Classification to Generation: Insights into Crosslingual Retrieval
Augmented ICL [8.065775937617417]
クロスランガル検索強化インコンテキスト学習(CREA-ICL)を利用した新しい手法を提案する。
高ソース言語から意味論的に類似したプロンプトを抽出することにより、多言語事前学習言語モデル(MPLM)のゼロショット性能の向上を目指す。
我々の手法は分類タスクを着実に改善するが、生成タスクでは課題に直面している。
論文 参考訳(メタデータ) (2023-11-11T15:40:21Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。