論文の概要: Bangla-Bayanno: A 52K-Pair Bengali Visual Question Answering Dataset with LLM-Assisted Translation Refinement
- arxiv url: http://arxiv.org/abs/2508.19887v1
- Date: Wed, 27 Aug 2025 13:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.650577
- Title: Bangla-Bayanno: A 52K-Pair Bengali Visual Question Answering Dataset with LLM-Assisted Translation Refinement
- Title(参考訳): Bangla-Bayanno: LLMを利用した52K-Pair Bengaliビジュアル質問回答データセット
- Authors: Mohammed Rakibul Hasan, Rafi Majid, Ahanaf Tahmid,
- Abstract要約: バングラでVQA(Visual Question Answering)データセットを公開しているBangla-Bayannoを紹介します。
データセットは、4750以上の画像に対して52,650の質問応答ペアで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce Bangla-Bayanno, an open-ended Visual Question Answering (VQA) Dataset in Bangla, a widely used, low-resource language in multimodal AI research. The majority of existing datasets are either manually annotated with an emphasis on a specific domain, query type, or answer type or are constrained by niche answer formats. In order to mitigate human-induced errors and guarantee lucidity, we implemented a multilingual LLM-assisted translation refinement pipeline. This dataset overcomes the issues of low-quality translations from multilingual sources. The dataset comprises 52,650 question-answer pairs across 4750+ images. Questions are classified into three distinct answer types: nominal (short descriptive), quantitative (numeric), and polar (yes/no). Bangla-Bayanno provides the most comprehensive open-source, high-quality VQA benchmark in Bangla, aiming to advance research in low-resource multimodal learning and facilitate the development of more inclusive AI systems.
- Abstract(参考訳): 本稿では,マルチモーダルAI研究で広く利用されている低リソース言語であるBanglaで,VQA(Visual Question Answering)データセットをオープン化したBangla-Bayannoを紹介する。
既存のデータセットの大部分は、特定のドメイン、クエリタイプ、あるいは応答タイプに重点を置いて手動で注釈付けされているか、ニッチな回答フォーマットによって制約されている。
人為的誤りを軽減し, 明快性を保証するため, 多言語LLMを用いた翻訳処理パイプラインを実装した。
このデータセットは、多言語ソースからの低品質翻訳の問題を克服する。
データセットは、4750以上の画像に対して52,650の質問応答ペアで構成されている。
質問は、名目(短い記述)、量(数値)、極(yes/no)の3つの異なる回答タイプに分類される。
Bangla-Bayanno氏は、Banglaで最も包括的なオープンソースで高品質なVQAベンチマークを提供し、低リソースのマルチモーダル学習の研究を進め、より包括的なAIシステムの開発を促進することを目指している。
関連論文リスト
- ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla [0.0]
我々は大規模なBangla VQAデータセットであるChitroJeraを導入し、多種多様なローカルなデータソースから15万以上のサンプルを収集した。
我々は,テキストエンコーダ,画像エンコーダ,マルチモーダルモデル,新しいデュアルエンコーダモデルの性能を評価する。
既存のデータセットの未開発状況を考えると、Banglaにおけるビジョンランゲージタスクの範囲を拡大するChitroJeraを想定する。
論文 参考訳(メタデータ) (2024-10-19T05:45:21Z) - UQA: Corpus for Urdu Question Answering [3.979019316355144]
本稿では,ウルドゥー語における質問応答とテキスト理解のための新しいデータセットであるUQAを紹介する。
UQAは、大規模な英語QAデータセットであるSQuAD2.0(Stanford Question Answering dataset)を翻訳することによって生成される。
本稿では,Google TranslatorとSeamless M4Tの2つの候補の中から,最適な翻訳モデルを選択し,評価するプロセスについて述べる。
論文 参考訳(メタデータ) (2024-05-02T16:44:31Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。