論文の概要: Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages?
- arxiv url: http://arxiv.org/abs/2505.16814v1
- Date: Thu, 22 May 2025 15:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.419588
- Title: Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages?
- Title(参考訳): 合成データは低リソース言語におけるエンティティ認識に役立ちますか?
- Authors: Gaurav Kamath, Sowmya Vajjala,
- Abstract要約: 低リソース言語のための名前付きエンティティ認識は、ラベル付きトレーニングデータが限られている言語のための堅牢なシステムを作ることを目的としている。
低リソースラベル付きデータの量を増やすためのデータ拡張は一般的なプラクティスである。
この結果から, 合成データは低リソース言語であるNERを約束するが, 言語間では大きな違いがあることがわかった。
- 参考スコア(独自算出の注目度): 2.7624021966289605
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Named Entity Recognition(NER) for low-resource languages aims to produce robust systems for languages where there is limited labeled training data available, and has been an area of increasing interest within NLP. Data augmentation for increasing the amount of low-resource labeled data is a common practice. In this paper, we explore the role of synthetic data in the context of multilingual, low-resource NER, considering 11 languages from diverse language families. Our results suggest that synthetic data does in fact hold promise for low-resource language NER, though we see significant variation between languages.
- Abstract(参考訳): 低リソース言語向けの名前付きエンティティ認識(NER)は、ラベル付きトレーニングデータが利用可能な言語のための堅牢なシステムを作ることを目的としており、NLP内での関心が高まっている。
低リソースラベル付きデータの量を増やすためのデータ拡張は一般的なプラクティスである。
本稿では,多言語・低リソースNERの文脈における合成データの役割について検討する。
この結果から, 合成データは低リソース言語であるNERを約束するが, 言語間では大きな違いがあることがわかった。
関連論文リスト
- MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification [0.19381162067627603]
本稿では,Language-Independent Data Augmentation (LiDA) とマルチヘッドアテンションに基づく重み付き埋め込みを組み合わせた高度なモデルを提案する。
このアプローチは、データ不足の問題に対処するだけでなく、低リソース言語処理と分類タスクにおける将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-02-25T08:53:27Z) - Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages [8.612181075294327]
本手法は, クロスリンガルNERに有効な手法であることを示す。
本稿では,対象候補を抽出したソースエンティティとマッチングする新しい形式化されたプロジェクション手法を提案する。
これらの知見は、低リソース言語におけるクロスリンガルなエンティティ認識のためのモデルベース手法の代替として、プロジェクションベースのデータ転送の堅牢性を強調している。
論文 参考訳(メタデータ) (2025-01-30T21:00:47Z) - Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。