論文の概要: OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report
- arxiv url: http://arxiv.org/abs/2602.13139v1
- Date: Fri, 13 Feb 2026 17:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.060069
- Title: OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report
- Title(参考訳): OpenLID-v3: 密接な関連言語識別精度の向上 - 経験報告
- Authors: Mariia Fedorova, Nikolay Arefyev, Maja Buljan, Jindřich Helcl, Stephan Oepen, Egil Rønningstad, Yves Scherrer,
- Abstract要約: 言語識別(LID)は、Webデータから高品質な多言語データセットを構築するための重要なステップである。
既存のLIDツール(OpenLIDやGlotLIDなど)は、密接に関連する言語を特定し、有効な自然言語とノイズを区別するのに苦労することが多い。
トレーニングデータを追加し、問題のある言語変種クラスタをマージし、ノイズをマーキングするための特別なラベルを導入することで、OpenLIDを拡張します。
- 参考スコア(独自算出の注目度): 6.210271973102547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language identification (LID) is an essential step in building high-quality multilingual datasets from web data. Existing LID tools (such as OpenLID or GlotLID) often struggle to identify closely related languages and to distinguish valid natural language from noise, which contaminates language-specific subsets, especially for low-resource languages. In this work we extend the OpenLID classifier by adding more training data, merging problematic language variant clusters, and introducing a special label for marking noise. We call this extended system OpenLID-v3 and evaluate it against GlotLID on multiple benchmarks. During development, we focus on three groups of closely related languages (Bosnian, Croatian, and Serbian; Romance varieties of Northern Italy and Southern France; and Scandinavian languages) and contribute new evaluation datasets where existing ones are inadequate. We find that ensemble approaches improve precision but also substantially reduce coverage for low-resource languages. OpenLID-v3 is available on https://huggingface.co/HPLT/OpenLID-v3.
- Abstract(参考訳): 言語識別(LID)は、Webデータから高品質な多言語データセットを構築するための重要なステップである。
既存のLIDツール(OpenLIDやGlotLIDなど)は、密接な関係のある言語を特定し、有効な自然言語とノイズを区別するのに苦労することが多い。
この作業では、より多くのトレーニングデータを追加し、問題のある言語変種クラスタをマージし、ノイズをマーキングするための特別なラベルを導入することで、OpenLID分類器を拡張します。
この拡張システムをOpenLID-v3と呼び、複数のベンチマークでGlotLIDに対して評価する。
開発期間中、我々は近縁な3つの言語群(ボスニア語、クロアチア語、セルビア語、北イタリア、南フランスのロマンス種、スカンジナビア語)に焦点を当て、既存の言語が不十分な新しい評価データセットを提供しています。
アンサンブルアプローチにより精度は向上するが,低リソース言語のカバレッジを大幅に削減できることがわかった。
OpenLID-v3はhttps://huggingface.co/HPLT/OpenLID-v3で入手できる。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Robust Open-Set Spoken Language Identification and the CU MultiLang
Dataset [2.048226951354646]
オープンセット音声言語識別システムは、入力が元の言語を示さないことを検出できる。
我々は,MFCCとピッチ特徴を用いたオープンセット音声言語識別のための新しい手法を実装した。
我々は、訓練された言語で91.76%の精度を達成し、未知の言語に適応する能力を有する音声言語識別システムを提案する。
論文 参考訳(メタデータ) (2023-08-29T00:44:27Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。