Fugu-MT 論文翻訳(概要): GlotLID: Language Identification for Low-Resource Languages

論文の概要: GlotLID: Language Identification for Low-Resource Languages

arxiv url: http://arxiv.org/abs/2310.16248v2
Date: Sat, 4 Nov 2023 11:28:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 20:01:24.827798
Title: GlotLID: Language Identification for Low-Resource Languages
Title（参考訳）: GlotLID:低リソース言語のための言語識別
Authors: Amir Hossein Kargaran, Ayyoob Imani, Fran\c{c}ois Yvon, Hinrich Sch\"utze
Abstract要約: GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
参考スコア（独自算出の注目度）: 13.59006556096416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Several recent papers have published good solutions for language identification (LID) for about 300 high-resource and medium-resource languages. However, there is no LID available that (i) covers a wide range of low-resource languages, (ii) is rigorously evaluated and reliable and (iii) efficient and easy to use. Here, we publish GlotLID-M, an LID model that satisfies the desiderata of wide coverage, reliability and efficiency. It identifies 1665 languages, a large increase in coverage compared to prior work. In our experiments, GlotLID-M outperforms four baselines (CLD3, FT176, OpenLID and NLLB) when balancing F1 and false positive rate (FPR). We analyze the unique challenges that low-resource LID poses: incorrect corpus metadata, leakage from high-resource languages, difficulty separating closely related languages, handling of macrolanguage vs varieties and in general noisy data. We hope that integrating GlotLID-M into dataset creation pipelines will improve quality and enhance accessibility of NLP technology for low-resource languages and cultures. GlotLID-M model, code, and list of data sources are available: https://github.com/cisnlp/GlotLID.
Abstract（参考訳）: 最近のいくつかの論文は、約300の高リソース言語と中リソース言語のための優れた言語識別ソリューション(lid)を公開している。ただし、LIDは利用できない。 i) 幅広い低リソース言語をカバーしている。 (ii)厳格に評価され、信頼性がある (iii)効率的で使いやすい。 glotlid-mは広範にわたる範囲,信頼性,効率性のデシデラタを満たすlidモデルである。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。実験では,F1と偽陽性率(FPR)のバランスをとる場合,GlotLID-Mは4つのベースライン(CLD3,FT176,OpenLID,NLLB)を上回った。コーパスメタデータの誤り、高リソース言語からの漏洩、密接な関連言語間の分離の困難、マクロ言語対バラエティの処理、一般的なノイズデータなどである。 GlotLID-Mをデータセット生成パイプラインに統合することで,低リソース言語や文化に対するNLP技術の品質向上とアクセシビリティ向上が期待できる。 GlotLID-Mモデル、コード、およびデータソースのリストが利用可能である。

関連論文リスト

What Language is This? Ask Your Tokenizer [32.28976119949841]
言語識別(LID)は多くの多言語自然言語処理パイプラインの重要なコンポーネントである。我々は,UnigramLMトークン化アルゴリズムに基づくシンプルで効率的なLID手法UniLIDを紹介する。我々の定式化は、データと計算効率が良く、既存のモデルを再訓練することなく、新しい言語の漸進的な追加をサポートしています。
論文参考訳（メタデータ） (2026-02-19T18:58:39Z)
OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report [6.210271973102547]
言語識別(LID)は、Webデータから高品質な多言語データセットを構築するための重要なステップである。既存のLIDツール(OpenLIDやGlotLIDなど)は、密接に関連する言語を特定し、有効な自然言語とノイズを区別するのに苦労することが多い。トレーニングデータを追加し、問題のある言語変種クラスタをマージし、ノイズをマーキングするための特別なラベルを導入することで、OpenLIDを拡張します。
論文参考訳（メタデータ） (2026-02-13T17:47:08Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-12-13T16:13:35Z)
On Limitations of LLM as Annotator for Low Resource Languages [0.4194295877935868]
低リソース言語は、教師付き学習、アノテーション、分類といったタスクのための十分な言語データ、リソース、ツールが不足しているため、重大な課題に直面している。この不足は正確なモデルやデータセットの開発を妨げるため、感情分析やヘイトスピーチ検出といった重要なNLPタスクの実行が困難になる。このギャップを埋めるために、Large Language Models (LLM) は潜在的なアノテータの機会を提供する。
論文参考訳（メタデータ） (2024-11-26T17:55:37Z)
UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages [2.66269503676104]
大規模言語モデル(LLM)は低リソース言語での性能が低い。低リソース言語のためのテキストデータを効率的に収集する手法を提案する。我々のアプローチであるUnifiedCrawlは、最小限の計算リソースを使用して共通のクローをフィルタし、抽出する。
論文参考訳（メタデータ） (2024-11-21T17:41:08Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Language Portability Strategies for Open-domain Dialogue with Pre-trained Language Models from High to Low Resource Languages [1.7436854281619139]
オープンドメイン対話システムに使用される大規模事前学習言語モデル(PLM)の言語ポータビリティ戦略について検討する。特に、ターゲットの低リソース言語(L_T)は、タスク固有のリソースがないため、フランス語でシミュレートされる。
論文参考訳（メタデータ） (2024-07-01T14:20:54Z)
High-quality Data-to-Text Generation for Severely Under-Resourced Languages with Out-of-the-box Large Language Models [5.632410663467911]
我々は、事前訓練された大規模言語モデル(LLM)が、アンダーリソース言語のパフォーマンスギャップを埋める可能性について検討する。 LLM は,低リソース言語における技術の現状を,かなりのマージンで容易に設定できることがわかった。全ての言語について、人間の評価は最高のシステムで人間と同等のパフォーマンスを示すが、BLEUのスコアは英語に比べて崩壊する。
論文参考訳（メタデータ） (2024-02-19T16:29:40Z)
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文参考訳（メタデータ） (2024-02-19T15:07:32Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。モデルとデータセットの両方を研究コミュニティに公開しています。
論文参考訳（メタデータ） (2023-05-23T08:43:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。