論文の概要: A Benchmark Dataset and a Framework for Urdu Multimodal Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2505.05148v1
- Date: Thu, 08 May 2025 11:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.862338
- Title: A Benchmark Dataset and a Framework for Urdu Multimodal Named Entity Recognition
- Title(参考訳): Urdu Multimodal Named Entity Recognitionのためのベンチマークデータセットとフレームワーク
- Authors: Hussain Ahmad, Qingyang Zeng, Jing Wan,
- Abstract要約: U-MNERフレームワークを導入し、Twitter2015-Urduデータセットをリリースする。
広く使われているTwitter2015データセットから適応され、Urdu固有の文法ルールで注釈付けされている。
我々のモデルはTwitter2015-Urduデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.9500421038452647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of multimodal content, particularly text and images on social media, has positioned Multimodal Named Entity Recognition (MNER) as an increasingly important area of research within Natural Language Processing. Despite progress in high-resource languages such as English, MNER remains underexplored for low-resource languages like Urdu. The primary challenges include the scarcity of annotated multimodal datasets and the lack of standardized baselines. To address these challenges, we introduce the U-MNER framework and release the Twitter2015-Urdu dataset, a pioneering resource for Urdu MNER. Adapted from the widely used Twitter2015 dataset, it is annotated with Urdu-specific grammar rules. We establish benchmark baselines by evaluating both text-based and multimodal models on this dataset, providing comparative analyses to support future research on Urdu MNER. The U-MNER framework integrates textual and visual context using Urdu-BERT for text embeddings and ResNet for visual feature extraction, with a Cross-Modal Fusion Module to align and fuse information. Our model achieves state-of-the-art performance on the Twitter2015-Urdu dataset, laying the groundwork for further MNER research in low-resource languages.
- Abstract(参考訳): マルチモーダルコンテンツ、特にソーシャルメディア上のテキストや画像の出現は、自然言語処理における研究の重要領域として、MNER(Multimodal Named Entity Recognition)を位置づけている。
英語などの高リソース言語が進歩しているにもかかわらず、MNERはウルドゥー語のような低リソース言語では未熟である。
主な課題は、アノテーション付きマルチモーダルデータセットの不足と、標準化されたベースラインの欠如である。
これらの課題に対処するため、U-MNERフレームワークを導入し、Urdu MNERの先駆的なリソースであるTwitter2015-Urduデータセットをリリースする。
広く使われているTwitter2015データセットから適応され、Urdu固有の文法ルールで注釈付けされている。
このデータセット上でテキストベースモデルとマルチモーダルモデルの両方を評価することでベンチマークベースラインを確立し、将来のUrdu MNER研究を支援するための比較分析を提供する。
U-MNERフレームワークは、テキスト埋め込みにUrdu-BERT、ビジュアル特徴抽出にResNetを使用してテキストコンテキストと視覚コンテキストを統合する。
我々のモデルはTwitter2015-Urduデータセットで最先端のパフォーマンスを達成し、低リソース言語におけるさらなるMNER研究の基礎を築いた。
関連論文リスト
- Multimodal Coreference Resolution for Chinese Social Media Dialogues: Dataset and Benchmark Approach [21.475881921929236]
MCR(Multimodal coreference resolution)は、異なるモードで同じエンティティを参照する参照を識別することを目的としている。
我々は,TikTalkCorefを紹介した。TikTalkCorefは,実世界のシナリオにおけるソーシャルメディアのための,最初の中国のマルチモーダルコアデータセットである。
論文 参考訳(メタデータ) (2025-04-19T15:15:59Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - UTRNet: High-Resolution Urdu Text Recognition In Printed Documents [5.179738379203527]
印刷されたウルドゥー文字認識の課題に対処する新しい手法を提案する。
提案するハイブリッドCNN-RNNモデルであるUTRNetアーキテクチャは,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-06-27T20:09:56Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。