Fugu-MT 論文翻訳(概要): Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages?

論文の概要: Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages?

arxiv url: http://arxiv.org/abs/2505.16814v1
Date: Thu, 22 May 2025 15:50:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.419588
Title: Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages?
Title（参考訳）: 合成データは低リソース言語におけるエンティティ認識に役立ちますか?
Authors: Gaurav Kamath, Sowmya Vajjala,
Abstract要約: 低リソース言語のための名前付きエンティティ認識は、ラベル付きトレーニングデータが限られている言語のための堅牢なシステムを作ることを目的としている。低リソースラベル付きデータの量を増やすためのデータ拡張は一般的なプラクティスである。この結果から, 合成データは低リソース言語であるNERを約束するが, 言語間では大きな違いがあることがわかった。
参考スコア（独自算出の注目度）: 2.7624021966289605
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Named Entity Recognition(NER) for low-resource languages aims to produce robust systems for languages where there is limited labeled training data available, and has been an area of increasing interest within NLP. Data augmentation for increasing the amount of low-resource labeled data is a common practice. In this paper, we explore the role of synthetic data in the context of multilingual, low-resource NER, considering 11 languages from diverse language families. Our results suggest that synthetic data does in fact hold promise for low-resource language NER, though we see significant variation between languages.
Abstract（参考訳）: 低リソース言語向けの名前付きエンティティ認識(NER)は、ラベル付きトレーニングデータが利用可能な言語のための堅牢なシステムを作ることを目的としており、NLP内での関心が高まっている。低リソースラベル付きデータの量を増やすためのデータ拡張は一般的なプラクティスである。本稿では,多言語・低リソースNERの文脈における合成データの役割について検討する。この結果から, 合成データは低リソース言語であるNERを約束するが, 言語間では大きな違いがあることがわかった。

関連論文リスト

Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文参考訳（メタデータ） (2025-06-30T22:26:36Z)
SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-29T17:48:08Z)
MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification [0.19381162067627603]
本稿では,Language-Independent Data Augmentation (LiDA) とマルチヘッドアテンションに基づく重み付き埋め込みを組み合わせた高度なモデルを提案する。このアプローチは、データ不足の問題に対処するだけでなく、低リソース言語処理と分類タスクにおける将来の研究の基盤となる。
論文参考訳（メタデータ） (2025-02-25T08:53:27Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages [8.612181075294327]
本手法は, クロスリンガルNERに有効な手法であることを示す。本稿では,対象候補を抽出したソースエンティティとマッチングする新しい形式化されたプロジェクション手法を提案する。これらの知見は、低リソース言語におけるクロスリンガルなエンティティ認識のためのモデルベース手法の代替として、プロジェクションベースのデータ転送の堅牢性を強調している。
論文参考訳（メタデータ） (2025-01-30T21:00:47Z)
Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文参考訳（メタデータ） (2024-04-14T23:44:49Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Transfer to a Low-Resource Language via Close Relatives: The Case Study on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文参考訳（メタデータ） (2023-04-18T08:42:38Z)
Learning Translation Quality Evaluation on Low Resource Languages from Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文参考訳（メタデータ） (2023-02-07T14:35:35Z)
Beyond Counting Datasets: A Survey of Multilingual Dataset Construction and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。言語に習熟したNLP研究者と集団労働者を対象に調査を行った。メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文参考訳（メタデータ） (2022-11-28T18:54:33Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。