論文の概要: Exploring the Potential of Machine Translation for Generating Named
Entity Datasets: A Case Study between Persian and English
- arxiv url: http://arxiv.org/abs/2302.09611v1
- Date: Sun, 19 Feb 2023 16:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:32:24.083344
- Title: Exploring the Potential of Machine Translation for Generating Named
Entity Datasets: A Case Study between Persian and English
- Title(参考訳): 名前付きエンティティデータセット生成のための機械翻訳の可能性を探る:ペルシア語と英語の事例
- Authors: Amir Sartipi and Afsaneh Fatemi
- Abstract要約: 本研究は、英語データセットへの機械翻訳の適用を通じて、ペルシア語の名前付きエンティティデータセットの生成に焦点を当てる。
CoNLL 2003データセットは85.11%という最高スコアを記録した。
対照的に、WNUT 2017データセットは40.02%という低いF1スコアを得た。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study focuses on the generation of Persian named entity datasets through
the application of machine translation on English datasets. The generated
datasets were evaluated by experimenting with one monolingual and one
multilingual transformer model. Notably, the CoNLL 2003 dataset has achieved
the highest F1 score of 85.11%. In contrast, the WNUT 2017 dataset yielded the
lowest F1 score of 40.02%. The results of this study highlight the potential of
machine translation in creating high-quality named entity recognition datasets
for low-resource languages like Persian. The study compares the performance of
these generated datasets with English named entity recognition systems and
provides insights into the effectiveness of machine translation for this task.
Additionally, this approach could be used to augment data in low-resource
language or create noisy data to make named entity systems more robust and
improve them.
- Abstract(参考訳): 本研究は、英語データセットに機械翻訳を適用することにより、ペルシャ語名付きエンティティデータセットの生成に焦点をあてる。
生成したデータセットは1つの単言語モデルと1つの多言語トランスモデルを用いて評価した。
2003年のconllデータセットは最高85.11%のf1スコアを達成している。
対照的に、WNUT 2017データセットは40.02%という低いF1スコアを得た。
本研究の結果は,ペルシャ語のような低リソース言語を対象とした高品質なエンティティ認識データセット作成における機械翻訳の可能性を強調した。
この研究は、これらの生成されたデータセットのパフォーマンスを英語名付きエンティティ認識システムと比較し、このタスクに対する機械翻訳の有効性に関する洞察を提供する。
さらに、このアプローチは、低リソース言語のデータを拡張したり、ノイズデータを生成して、名前付きエンティティシステムをより堅牢にし、改善するために使用することができる。
関連論文リスト
- Utilizing Weak Supervision To Generate Indonesian Conservation Dataset [3.357014575278386]
迅速かつ大規模なデータセット作成のための有望なアプローチとして、弱みの監視が登場している。
本稿では,インドネシアのNLPデータセットを保護ニューステキストから構築する方法について述べる。
論文 参考訳(メタデータ) (2023-10-17T13:23:18Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili [1.9686054517684888]
機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
論文 参考訳(メタデータ) (2023-06-12T20:43:24Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Syntax-guided Localized Self-attention by Constituency Syntactic
Distance [26.141356981833862]
本稿では,Transformerのための構文誘導型ローカライズ自己アテンションを提案する。
外部の選挙区から直接文法構造を組み込むことができる。
実験結果から,本モデルによる翻訳性能の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-21T06:37:25Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial
Discriminator for Cross-Lingual NER [2.739898536581301]
エンコーダがラベル付きソースコードからエンティティドメインの知識を学習する逆学習フレームワークを設計する。
提案手法は, このデータ選択プロセスの恩恵を強く受け, 既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-04T07:17:18Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。