論文の概要: AlbNER: A Corpus for Named Entity Recognition in Albanian
- arxiv url: http://arxiv.org/abs/2309.08741v1
- Date: Fri, 15 Sep 2023 20:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 19:45:26.477608
- Title: AlbNER: A Corpus for Named Entity Recognition in Albanian
- Title(参考訳): AlbNER: アルバニア語で名前付きエンティティ認識のためのコーパス
- Authors: Erion \c{C}ano
- Abstract要約: 本稿では、アルバニア語ウィキペディアの記事から収集した900文のコーパスであるAlbNERについて述べる。
BERTとRoBERTaによる予備的な結果から、AlbNERデータを用いて微調整およびテストした結果、モデルサイズがNERのパフォーマンスにわずかに影響を与えているのに対して、言語転送は大きな影響を与えていることがわかる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scarcity of resources such as annotated text corpora for under-resourced
languages like Albanian is a serious impediment in computational linguistics
and natural language processing research. This paper presents AlbNER, a corpus
of 900 sentences with labeled named entities, collected from Albanian Wikipedia
articles. Preliminary results with BERT and RoBERTa variants fine-tuned and
tested with AlbNER data indicate that model size has slight impact on NER
performance, whereas language transfer has a significant one. AlbNER corpus and
these obtained results should serve as baselines for future experiments.
- Abstract(参考訳): アルバニア語のような低リソース言語のための注釈付きテキストコーパスのようなリソース不足は、計算言語学や自然言語処理研究において深刻な障害となっている。
本稿では、アルバニア語ウィキペディアの記事から収集した900文のコーパスであるAlbNERについて述べる。
BERTとRoBERTaによる予備的な結果から、AlbNERデータを用いて微調整およびテストした結果、モデルサイズがNERのパフォーマンスにわずかに影響を与えているのに対して、言語転送は大きな影響を与えている。
AlbNERコーパスとこれらの結果は将来の実験のベースラインとなる。
関連論文リスト
- FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment Analysis [0.0]
アルジェ方言(AD)は、注釈付きコーパスがないため、課題に直面している。
本研究では,Fake News(FN)検出・感情分析(SA)のための専門コーパスの開発プロセスについて概説する。
論文 参考訳(メタデータ) (2024-11-07T10:39:10Z) - Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - AlbNews: A Corpus of Headlines for Topic Modeling in Albanian [0.0]
AlbNews(アルブニューズ)は、アルバニア語で600のニュースヘッドラインと2600の未ラベルのニュースのコレクションである。
このデータはトピックモデリング研究の実施に自由に利用できる。
論文 参考訳(メタデータ) (2024-02-06T14:24:28Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - AlbMoRe: A Corpus of Movie Reviews for Sentiment Analysis in Albanian [0.0]
AlbMoRe(アルブモレ)は、アルバニアの映画レビュー800のコーパス。
各テキストは肯定的あるいは否定的にラベル付けされ、感情分析研究に使用することができる。
論文 参考訳(メタデータ) (2023-06-14T14:21:55Z) - Extract and Attend: Improving Entity Translation in Neural Machine
Translation [141.7840980565706]
NMTにおけるエンティティ翻訳を強化するための抽出・アテンド手法を提案する。
提案手法は,エンティティの翻訳精度と全体的な翻訳品質の向上に有効である。
論文 参考訳(メタデータ) (2023-06-04T03:05:25Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - ArNLI: Arabic Natural Language Inference for Entailment and
Contradiction Detection [1.8275108630751844]
われわれは12k以上の文からなるデータセットを作成し、ArNLIと命名した。
本研究では,言語モデルベクトルと組み合わされた矛盾ベクトルを機械学習モデルへの入力として用い,アラビア語における文対の矛盾を検出する手法を提案する。
その結果, PHEME, SICK, ArNLIの精度は99%, 60%, 75%であった。
論文 参考訳(メタデータ) (2022-09-28T09:37:16Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。