論文の概要: ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2502.11198v3
- Date: Tue, 27 May 2025 17:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.191681
- Title: ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition
- Title(参考訳): ANCHOLIK-NER:Bangla地域名前付きエンティティ認識のためのベンチマークデータセット
- Authors: Bidyarthi Paul, Faika Fairuj Preotee, Shuvashis Sarker, Shamim Rahim Refat, Shifat Islam, Tashreef Muhammad, Mohammad Ashraful Hoque, Shahriar Manzoor,
- Abstract要約: ANCHOLIK-NERはバングラ地方方言におけるNERの最初のベンチマークデータセットである。
我々は,Bangla BERT,Bangla BERT Base,BERT Base Multilingual Casedの3つのトランスフォーマーモデルを評価する。
以上の結果から,BERT Base Multilingual Casedは各領域にまたがる名前の認識に最適であることが示唆された。
- 参考スコア(独自算出の注目度): 0.8025340896297104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) in regional dialects is a critical yet underexplored area in Natural Language Processing (NLP), especially for low-resource languages like Bangla. While NER systems for Standard Bangla have made progress, no existing resources or models specifically address the challenge of regional dialects such as Barishal, Chittagong, Mymensingh, Noakhali, and Sylhet, which exhibit unique linguistic features that existing models fail to handle effectively. To fill this gap, we introduce ANCHOLIK-NER, the first benchmark dataset for NER in Bangla regional dialects, comprising 17,405 sentences distributed across five regions. The dataset was sourced from publicly available resources and supplemented with manual translations, ensuring alignment of named entities across dialects. We evaluate three transformer-based models - Bangla BERT, Bangla BERT Base, and BERT Base Multilingual Cased - on this dataset. Our findings demonstrate that BERT Base Multilingual Cased performs best in recognizing named entities across regions, with significant performance observed in Mymensingh with an F1-score of 82.611%. Despite strong overall performance, challenges remain in region like Chittagong, where the models show lower precision and recall. Since no previous NER systems for Bangla regional dialects exist, our work represents a foundational step in addressing this gap. Future work will focus on improving model performance in underperforming regions and expanding the dataset to include more dialects, enhancing the development of dialect-aware NER systems.
- Abstract(参考訳): 地域方言における名前付きエンティティ認識(NER)は、自然言語処理(NLP)において、特にBanglaのような低リソース言語において、重要で未探索の領域である。
標準バングラ語のためのNERシステムは進歩しているが、バリシャル語、チッタゴン語、マイメンシング語、ノアハリ語、シルヘット語などの地域方言の課題に対処する既存の資源やモデルは存在しない。
このギャップを埋めるために,バングラ地方方言におけるNERのベンチマークデータセットであるANCHOLIK-NERを紹介した。
データセットは公開リソースからソースされ、手動による翻訳が補完され、方言間で名前付きエンティティのアライメントが保証された。
本稿では,Bangla BERT,Bangla BERT Base,BERT Base Multilingual Casedの3つのトランスフォーマーモデルを評価する。
以上の結果から, BERT Base Multilingual Cased は, Mmensingh において82.611% のF1スコアで高い性能を示した。
全体的なパフォーマンスは高いが、チッタゴンのような地域では、モデルの精度とリコールが低い。
バングラ地方方言に対する従来のNERシステムは存在しないため、我々の研究はこのギャップに対処するための基本的なステップである。
今後は、パフォーマンスの低い地域でのモデルパフォーマンスの向上と、より多くの方言を含むデータセットの拡張、方言対応NERシステムの開発に重点を置く予定である。
関連論文リスト
- BIDWESH: A Bangla Regional Based Hate Speech Detection Dataset [0.0]
本研究は,バングラヘイトスピーチデータセットであるBIDWESHを紹介する。
BD-SHSコーパスから9,183のインスタンスを3つの主要地域方言に翻訳し、注釈付けすることで構築された。
その結果得られたデータセットは、バングラでヘイトスピーチの検出を進めるための言語的にリッチでバランスの取れた、包括的なリソースを提供する。
論文 参考訳(メタデータ) (2025-07-22T02:53:48Z) - Bridging Dialects: Translating Standard Bangla to Regional Variants Using Neural Models [1.472830326343432]
この研究は、言語多様性を保ち、方言話者間のコミュニケーションを改善する必要性によって動機付けられている。
モデルは"Vashantor"データセットを使用して微調整され、様々な方言で32,500の文が含まれている。
BanglaT5はCERが12.3%、WERが15.7%で優れた性能を示し、方言のニュアンスを捉える効果を強調した。
論文 参考訳(メタデータ) (2025-01-10T06:50:51Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition [10.244515100904144]
本研究では,大規模ドメインに依存しないASRデータセットを構築するための擬似ラベル手法を提案する。
さまざまな話題,話し方,方言,騒々しい環境,会話シナリオを含む20k時間以上のラベル付きバングラ音声データセットを開発した。
トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。
本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-06T15:37:14Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - CebuaNER: A New Baseline Cebuano Named Entity Recognition Model [1.5056924758531152]
本稿ではCebuaNERについて紹介する。CebuaNERはCebuano言語における名前付きエンティティ認識のための新しいベースラインモデルである。
モデルを構築するために、4000以上のニュース記事を収集し、注釈を付けました。
その結果,新しいベースラインモデルとして有望な結果が得られ,すべてのエンティティタグに対して70%以上の精度,リコール,F1が達成された。
論文 参考訳(メタデータ) (2023-10-01T14:09:42Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - BanglaCoNER: Towards Robust Bangla Complex Named Entity Recognition [0.0]
本稿では,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。
データセットはトレーニング用15300文と検証用800文で構成されている。
また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-16T13:31:31Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - AsNER -- Annotated Dataset and Baseline for Assamese Named Entity
recognition [7.252817150901275]
提案されたNERデータセットは、ディープニューラルネットワークベースのアサマセ言語処理のための重要なリソースである可能性が高い。
我々は、NERモデルをトレーニングしてデータセットをベンチマークし、教師付きエンティティ認識のための最先端アーキテクチャを用いて評価する。
全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。
論文 参考訳(メタデータ) (2022-07-07T16:45:55Z) - HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。
データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文 参考訳(メタデータ) (2022-04-28T19:14:21Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Dataset Geography: Mapping Language Data to Language Users [17.30955185832338]
本研究では,NLPデータセットが言語話者の期待するニーズにどの程度一致しているかを定量化することを目的として,NLPデータセットの地理的代表性について検討する。
その際、エンティティ認識とリンクシステムを使用し、言語間の一貫性について重要な観察を行う。
最後に,観測された分布データセットを説明するための地理的・経済的要因について検討する。
論文 参考訳(メタデータ) (2021-12-07T05:13:50Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。