Fugu-MT 論文翻訳(概要): Enhancing NER Performance in Low-Resource Pakistani Languages using Cross-Lingual Data Augmentation

論文の概要: Enhancing NER Performance in Low-Resource Pakistani Languages using Cross-Lingual Data Augmentation

arxiv url: http://arxiv.org/abs/2504.08792v1
Date: Mon, 07 Apr 2025 15:18:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 05:53:02.542877
Title: Enhancing NER Performance in Low-Resource Pakistani Languages using Cross-Lingual Data Augmentation
Title（参考訳）: 言語間データ拡張を用いた低リソースパキスタン語におけるNER性能の向上
Authors: Toqeer Ehsan, Thamar Solorio,
Abstract要約: 本研究では,4つの低リソースパキスタン語に対する文化的に妥当な文と実験を生成するデータ拡張手法を提案する。マルチ言語マスキングされたLarge Language Models (LLMs) を微調整することにより,シャフフヒとパシュトーのNER性能が大幅に向上したことを示す。
参考スコア（独自算出の注目度）: 7.383944919243126
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Named Entity Recognition (NER), a fundamental task in Natural Language Processing (NLP), has shown significant advancements for high-resource languages. However, due to a lack of annotated datasets and limited representation in Pre-trained Language Models (PLMs), it remains understudied and challenging for low-resource languages. To address these challenges, we propose a data augmentation technique that generates culturally plausible sentences and experiments on four low-resource Pakistani languages; Urdu, Shahmukhi, Sindhi, and Pashto. By fine-tuning multilingual masked Large Language Models (LLMs), our approach demonstrates significant improvements in NER performance for Shahmukhi and Pashto. We further explore the capability of generative LLMs for NER and data augmentation using few-shot learning.
Abstract（参考訳）: 自然言語処理 (NLP) の基本課題である Entity Recognition (NER) は、高リソース言語において大きな進歩を見せている。しかしながら、アノテーション付きデータセットの欠如とPLM(Pre-trained Language Models)の限られた表現のため、低リソース言語では未検討であり、課題である。これらの課題に対処するため,我々は,ウルドゥー語,シャフムクヒ語,シンディー語,パシュトー語という4つの低資源パキスタン語で,文化的に妥当な文と実験を生成するデータ拡張手法を提案する。マルチ言語マスキングされたLarge Language Models (LLMs) を微調整することにより,シャフフヒとパシュトーのNER性能が大幅に向上したことを示す。さらに,NERのためのジェネレーティブLLMの能力と,少数ショット学習を用いたデータ拡張について検討する。

関連論文リスト

BhashaSetu: Cross-Lingual Knowledge Transfer from High-Resource to Extreme Low-Resource Languages [7.883895869179052]
言語間の知識伝達はこの課題に対処するための有望なアプローチとして現れている。本稿では,2つのベースラインとともに,言語間知識伝達のための新しい手法を提案する。実験結果から,GNNに基づくアプローチは,既存の多言語・多言語ベースライン法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2026-02-05T12:33:30Z)
Bridging Language Gaps: Enhancing Few-Shot Language Adaptation [32.157041759856]
言語資源の格差は、多言語NLPにおける課題となっている。高リソース言語は広範なデータから恩恵を受ける一方、低リソース言語は効果的なトレーニングに十分なデータを持っていない。我々のContrastive Language Alignment with Prompting (CoLAP) 法は、コントラスト学習と言語間表現を統合することで、このギャップに対処する。
論文参考訳（メタデータ） (2025-08-26T22:49:17Z)
Generative AI for Named Entity Recognition in Low-Resource Language Nepali [0.0]
本稿では,ネパールにおけるLarge Language Models (LLMs) のNERへの適用について検討する。 LLMは、限られたデータから学習できるため、低リソース言語に特に有望である。ネパール語などの言語におけるNLP研究の進展に貴重な貢献をしている。
論文参考訳（メタデータ） (2025-03-12T20:40:09Z)
Cross-Lingual Transfer for Low-Resource Natural Language Processing [0.32634122554914]
言語間移動学習は、NLPの性能を向上させるために、高ソース言語からのデータとモデルを活用する研究分野である。この論文は、最先端のアノテーション投影法であるT-プロジェクションを用いて、データベースの転送を改善する新しい方法を提案する。モデルベース転送では,ゼロショット設定で言語間連続ラベルを拡張可能な制約付き復号アルゴリズムを導入する。最後に,最初の多言語テキスト・テキスト・メディカルモデルであるMedical mT5を開発した。
論文参考訳（メタデータ） (2025-02-04T21:17:46Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文参考訳（メタデータ） (2024-11-20T16:59:41Z)
Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings [12.507989493130175]
大規模言語モデル (LLM) は自然言語処理 (NLP) に大きな関心を寄せている。近年の研究では、低リソース言語におけるLLMの限界が強調されている。英語からバングラ語、ヒンディー語、ウルドゥー語に翻訳することで、感情と憎悪の音声タスクのデータセットを提示する。
論文参考訳（メタデータ） (2024-08-05T05:09:23Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文参考訳（メタデータ） (2024-05-07T21:58:45Z)
Transferring BERT Capabilities from High-Resource to Low-Resource Languages Using Vocabulary Matching [1.746529892290768]
本研究は、語彙マッチングを用いてBERT機能を高リソース言語から低リソース言語に転送する新しい手法を提案する。我々はシレジア語とカシュビ語で実験を行い、目標言語が最小限の訓練データを持つ場合でもBERTモデルの性能向上のためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-02-22T09:49:26Z)
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文参考訳（メタデータ） (2024-02-19T15:07:32Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。