論文の概要: HaVQA: A Dataset for Visual Question Answering and Multimodal Research
in Hausa Language
- arxiv url: http://arxiv.org/abs/2305.17690v1
- Date: Sun, 28 May 2023 10:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:15:29.647981
- Title: HaVQA: A Dataset for Visual Question Answering and Multimodal Research
in Hausa Language
- Title(参考訳): HaVQA:Hausa言語における視覚的質問応答とマルチモーダルリサーチのためのデータセット
- Authors: Shantipriya Parida, Idris Abdulmumin, Shamsuddeen Hassan Muhammad,
Aneesh Bose, Guneet Singh Kohli, Ibrahim Said Ahmad, Ketan Kotwal, Sayan Deb
Sarkar, Ond\v{r}ej Bojar, Habeebah Adamu Kakudi
- Abstract要約: HaVQAは、Hausa言語における視覚的質問応答タスクのための最初のマルチモーダルデータセットである。
データセットは、6,022の英問合せペアを手動で翻訳することで作成され、Visual Genomeデータセットから1,555のユニークな画像に関連付けられている。
- 参考スコア(独自算出の注目度): 1.3476084087665703
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents HaVQA, the first multimodal dataset for visual
question-answering (VQA) tasks in the Hausa language. The dataset was created
by manually translating 6,022 English question-answer pairs, which are
associated with 1,555 unique images from the Visual Genome dataset. As a
result, the dataset provides 12,044 gold standard English-Hausa parallel
sentences that were translated in a fashion that guarantees their semantic
match with the corresponding visual information. We conducted several baseline
experiments on the dataset, including visual question answering, visual
question elicitation, text-only and multimodal machine translation.
- Abstract(参考訳): 本稿では,Hausa言語における視覚質問応答(VQA)タスクのためのマルチモーダルデータセットHaVQAを提案する。
データセットは、6,022の英問合せペアを手動で翻訳することで作成され、Visual Genomeデータセットから1,555のユニークな画像に関連付けられている。
その結果、データセットは12,044ゴールドの標準英語とハウサの平行文を提供し、対応する視覚情報と意味的一致を保証する方法で翻訳される。
視覚質問応答,視覚質問誘発,テキストのみの翻訳,マルチモーダル機械翻訳など,データセットのベースライン実験を行った。
関連論文リスト
- Fully Authentic Visual Question Answering Dataset from Online
Communities [76.34788403743514]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
データセットと、それが他の8つのVQAデータセットとどのように関連しているかを特徴付けます。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - VLSP2022-EVJVQA Challenge: Multilingual Visual Question Answering [2.5199066832791535]
VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)の課題である。
EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答のためのベンチマークデータセットとして使用される。
本稿では,課題の組織化,共有タスク参加者が採用した手法の概要,その結果について述べる。
論文 参考訳(メタデータ) (2023-02-23T02:38:39Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language [0.0]
このデータセットは、Swahili低リソース言語の生のストーリーテキストから注釈付けされている。
QAデータセットは、インターネット検索やダイアログシステムのようなタスクのための自然言語の機械理解にとって重要である。
この研究は、Kencorpusプロジェクトによって収集されたスワヒリのテキストからQAペアを定式化するためにアノテータを雇った。
論文 参考訳(メタデータ) (2022-05-04T23:53:23Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z) - On the General Value of Evidence, and Bilingual Scene-Text Visual
Question Answering [120.64104995052189]
本稿では,2つの言語で表現された質問を含む,この問題に対処するための一歩を踏み出したデータセットを提案する。
推論を測定することは、偶然に正しい答えを罰することによって、直接一般化を促進する。
データセットはVQA問題のシーンテキストバージョンを反映しており、推論評価は参照表現課題のテキストベースのバージョンと見なすことができる。
論文 参考訳(メタデータ) (2020-02-24T13:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。