論文の概要: COCO-Urdu: A Large-Scale Urdu Image-Caption Dataset with Multimodal Quality Estimation
- arxiv url: http://arxiv.org/abs/2509.09014v1
- Date: Wed, 10 Sep 2025 21:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.157683
- Title: COCO-Urdu: A Large-Scale Urdu Image-Caption Dataset with Multimodal Quality Estimation
- Title(参考訳): COCO-Urdu:マルチモーダル品質推定による大規模ウルドゥー画像キャプチャデータセット
- Authors: Umair Hassan,
- Abstract要約: COCO-Urduは59,000の画像と319,000のUrduキャプションを含む大規模な画像キャプチャーデータセットである。
私たちの知る限りでは、COCO-UrduはUrduのキャプションデータセットとして最大である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urdu, spoken by over 250 million people, remains critically under-served in multimodal and vision-language research. The absence of large-scale, high-quality datasets has limited the development of Urdu-capable systems and reinforced biases in multilingual vision-language models trained primarily on high-resource languages. To address this gap, we present COCO-Urdu, a large-scale image-caption dataset derived from MS COCO, containing 59,000 images and 319,000 Urdu captions selected through stratified sampling to preserve the original distribution. Captions were translated using SeamlessM4T v2 and validated with a hybrid multimodal quality estimation framework that integrates COMET-Kiwi for translation quality, CLIP-based similarity for visual grounding, and BERTScore with back-translation for semantic consistency; low-scoring captions were iteratively refined using open-source large language models. We further benchmark COCO-Urdu on BLEU, SacreBLEU, and chrF, reporting consistently strong results. To the best of our knowledge, COCO-Urdu is the largest publicly available Urdu captioning dataset. By releasing both the dataset and the quality estimation pipeline, we aim to reduce language bias in multimodal research and establish a foundation for inclusive vision-language systems.
- Abstract(参考訳): ウルドゥー語は2億5000万人を超える人々によって話され、マルチモーダル語とヴィジュアル言語の研究において批判的に不足している。
大規模で高品質なデータセットの欠如は、主に高ソース言語で訓練された多言語視覚言語モデルにおけるUrdu対応システムの開発と強化バイアスを制限している。
そこで本研究では,MS COCOから派生した大規模画像キャプチャーデータセットであるCOCO-Urduについて述べる。
キャプションはSeamlessM4T v2を使用して翻訳され、翻訳品質にCOMET-Kiwiを統合したハイブリッドマルチモーダル品質推定フレームワーク、視覚的なグラウンド化のためのCLIPベースの類似性、セマンティック一貫性のためのバックトランスレーションを備えたBERTScoreで検証された。
我々はさらに、BLEU、SacreBLEU、chrFのCOCO-Urduをベンチマークし、一貫して強い結果を報告する。
私たちの知る限りでは、COCO-UrduはUrduのキャプションデータセットとして最大である。
データセットと品質推定パイプラインの両方をリリースすることにより、マルチモーダル研究における言語バイアスを低減し、包括的視覚言語システムの基礎を確立することを目指している。
関連論文リスト
- Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data [5.950263765640278]
本稿では、弱いラベル付きデータを用いて音声からテキストへの翻訳モデルを構築することができるという仮説を考察する。
我々は、最先端の文エンコーダを用いて、Bitextマイニングの助けを借りてデータセットを構築した。
以上の結果から,STシステムはマルチモーダルな多言語ベースラインに匹敵する性能を持つ弱いラベル付きデータで構築可能であることが示された。
論文 参考訳(メタデータ) (2025-06-19T12:11:01Z) - UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。
ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文 参考訳(メタデータ) (2025-02-24T08:38:21Z) - Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? [3.902360015414256]
この研究は、多言語設定におけるCLIPScore変種の評価に関連する、いくつかの戦略と広範な実験を提示する。
機械翻訳データを用いたテストでは、多言語CLIPScoreモデルは、異なる言語にわたる人間の判断と高い相関を維持することができる。
論文 参考訳(メタデータ) (2025-02-10T16:00:00Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z) - Multilingual unsupervised sequence segmentation transfers to extremely
low-resource languages [0.0]
Masked Segmental Language Modelを多言語で事前学習することで、教師なしシーケンスセグメンテーションのパフォーマンスを極端に低リソース言語に変換することができる。
対象言語とタイプ論的に類似しているが系統学的には無関係) な低リソース言語群を学習することにより, この移行を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:08:28Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。