論文の概要: Exploring the Potential of Machine Translation for Generating Named
Entity Datasets: A Case Study between Persian and English
- arxiv url: http://arxiv.org/abs/2302.09611v1
- Date: Sun, 19 Feb 2023 16:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:32:24.083344
- Title: Exploring the Potential of Machine Translation for Generating Named
Entity Datasets: A Case Study between Persian and English
- Title(参考訳): 名前付きエンティティデータセット生成のための機械翻訳の可能性を探る:ペルシア語と英語の事例
- Authors: Amir Sartipi and Afsaneh Fatemi
- Abstract要約: 本研究は、英語データセットへの機械翻訳の適用を通じて、ペルシア語の名前付きエンティティデータセットの生成に焦点を当てる。
CoNLL 2003データセットは85.11%という最高スコアを記録した。
対照的に、WNUT 2017データセットは40.02%という低いF1スコアを得た。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study focuses on the generation of Persian named entity datasets through
the application of machine translation on English datasets. The generated
datasets were evaluated by experimenting with one monolingual and one
multilingual transformer model. Notably, the CoNLL 2003 dataset has achieved
the highest F1 score of 85.11%. In contrast, the WNUT 2017 dataset yielded the
lowest F1 score of 40.02%. The results of this study highlight the potential of
machine translation in creating high-quality named entity recognition datasets
for low-resource languages like Persian. The study compares the performance of
these generated datasets with English named entity recognition systems and
provides insights into the effectiveness of machine translation for this task.
Additionally, this approach could be used to augment data in low-resource
language or create noisy data to make named entity systems more robust and
improve them.
- Abstract(参考訳): 本研究は、英語データセットに機械翻訳を適用することにより、ペルシャ語名付きエンティティデータセットの生成に焦点をあてる。
生成したデータセットは1つの単言語モデルと1つの多言語トランスモデルを用いて評価した。
2003年のconllデータセットは最高85.11%のf1スコアを達成している。
対照的に、WNUT 2017データセットは40.02%という低いF1スコアを得た。
本研究の結果は,ペルシャ語のような低リソース言語を対象とした高品質なエンティティ認識データセット作成における機械翻訳の可能性を強調した。
この研究は、これらの生成されたデータセットのパフォーマンスを英語名付きエンティティ認識システムと比較し、このタスクに対する機械翻訳の有効性に関する洞察を提供する。
さらに、このアプローチは、低リソース言語のデータを拡張したり、ノイズデータを生成して、名前付きエンティティシステムをより堅牢にし、改善するために使用することができる。
関連論文リスト
- Low-Resource Machine Translation through the Lens of Personalized Federated Learning [26.436144338377755]
異種データを用いた自然言語処理に適用可能な新しい手法を提案する。
大規模多言語機械翻訳共有タスクのデータセットを用いて,低リソース機械翻訳タスク上で評価を行った。
MeritFedは、その効果に加えて、トレーニングに使用する各言語の影響を追跡するために適用できるため、高度に解釈可能である。
論文 参考訳(メタデータ) (2024-06-18T12:50:00Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Utilizing Weak Supervision To Generate Indonesian Conservation Dataset [3.357014575278386]
迅速かつ大規模なデータセット作成のための有望なアプローチとして、弱みの監視が登場している。
本稿では,インドネシアのNLPデータセットを保護ニューステキストから構築する方法について述べる。
論文 参考訳(メタデータ) (2023-10-17T13:23:18Z) - Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili [1.9686054517684888]
機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
論文 参考訳(メタデータ) (2023-06-12T20:43:24Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Syntax-guided Localized Self-attention by Constituency Syntactic
Distance [26.141356981833862]
本稿では,Transformerのための構文誘導型ローカライズ自己アテンションを提案する。
外部の選挙区から直接文法構造を組み込むことができる。
実験結果から,本モデルによる翻訳性能の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-21T06:37:25Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。