論文の概要: StackOverflowVQA: Stack Overflow Visual Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2405.10736v1
- Date: Fri, 17 May 2024 12:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:13:13.178796
- Title: StackOverflowVQA: Stack Overflow Visual Question Answering Dataset
- Title(参考訳): StackOverflowVQA: Stack Overflow Visual Question Answering Dataset
- Authors: Motahhare Mirzaei, Mohammad Javad Pirhadi, Sauleh Eetemadi,
- Abstract要約: 本研究は,質問自体に加えて,画像の理解が必要な質問に焦点をあてる。
StackOverflowVQAデータセットには、1つ以上の付随するイメージを持つStackOverflowからの質問が含まれている。
- 参考スコア(独自算出の注目度): 0.04096453902709291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, people have increasingly used AI to help them with their problems by asking questions on different topics. One of these topics can be software-related and programming questions. In this work, we focus on the questions which need the understanding of images in addition to the question itself. We introduce the StackOverflowVQA dataset, which includes questions from StackOverflow that have one or more accompanying images. This is the first VQA dataset that focuses on software-related questions and contains multiple human-generated full-sentence answers. Additionally, we provide a baseline for answering the questions with respect to images in the introduced dataset using the GIT model. All versions of the dataset are available at https://huggingface.co/mirzaei2114.
- Abstract(参考訳): 近年、人々はさまざまなトピックについて質問することで、AIを使って問題解決を支援している。
これらのトピックの1つは、ソフトウェア関連の問題とプログラミングに関する質問である。
本研究では,質問そのものに加えて,画像の理解が必要な質問に焦点をあてる。
StackOverflowVQAデータセットには、1つ以上の付随するイメージを持つStackOverflowからの質問が含まれている。
これは、ソフトウェア関連の質問に焦点を絞った最初のVQAデータセットであり、複数の人間が生成した全文回答を含んでいる。
さらに、GITモデルを用いて、導入されたデータセットのイメージに関する質問に答えるためのベースラインを提供する。
データセットのすべてのバージョンはhttps://huggingface.co/mirzaei2114で公開されている。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual
Question Answering in Vietnamese [2.7528170226206443]
ベトナム初の視覚的質問応答のための大規模データセットであるOpenViVQAデータセットを紹介する。
データセットは37,000以上の質問応答ペア(QA)に関連付けられた11,000以上の画像で構成されている。
提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2023-05-07T03:59:31Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - ConditionalQA: A Complex Reading Comprehension Dataset with Conditional
Answers [93.55268936974971]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。
このデータセットを ConditionalQA と呼びます。
本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:16:46Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question
Answering with Hypothetical Actions over Images [31.317663183139384]
視覚的な理解は、特定のシナリオで特定のアクションを実行するという仮説的な結果が精神的にシミュレートされるような質問に答えることに挑戦される。
CLEVRデータセットに基づいて視覚言語による質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2021-04-13T07:29:21Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Generating Natural Questions from Images for Multimodal Assistants [4.930442416763205]
本稿では,画像の内容やメタデータを考慮した多様で意味のある質問を生成するためのアプローチを提案する。
BLEU, METEOR, ROUGE, CIDEr などの標準評価指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-11-17T19:12:23Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。