論文の概要: SparrowVQE: Visual Question Explanation for Course Content Understanding
- arxiv url: http://arxiv.org/abs/2411.07516v1
- Date: Tue, 12 Nov 2024 03:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:47.229819
- Title: SparrowVQE: Visual Question Explanation for Course Content Understanding
- Title(参考訳): SparrowVQE: コース内容理解のための視覚的質問説明
- Authors: Jialu Li, Manish Kumar Thota, Ruslan Gokhman, Radek Holik, Youshan Zhang,
- Abstract要約: 本稿では、視覚的質問説明(VQE)を導入し、VQAの詳細な説明を提供する能力を高める。
我々は,マルチモーダル・プレトレーニング,インストラクション・チューニング,ドメインファインチューニングという3段階のトレーニング機構でモデルを訓練した。
実験結果から,我々のSparrowVQEは,開発したMLVQEデータセットの性能向上と,他の5つのベンチマークVQAデータセットの最先端メソッドのパフォーマンス向上を実証した。
- 参考スコア(独自算出の注目度): 12.926309478839652
- License:
- Abstract: Visual Question Answering (VQA) research seeks to create AI systems to answer natural language questions in images, yet VQA methods often yield overly simplistic and short answers. This paper aims to advance the field by introducing Visual Question Explanation (VQE), which enhances the ability of VQA to provide detailed explanations rather than brief responses and address the need for more complex interaction with visual content. We first created an MLVQE dataset from a 14-week streamed video machine learning course, including 885 slide images, 110,407 words of transcripts, and 9,416 designed question-answer (QA) pairs. Next, we proposed a novel SparrowVQE, a small 3 billion parameters multimodal model. We trained our model with a three-stage training mechanism consisting of multimodal pre-training (slide images and transcripts feature alignment), instruction tuning (tuning the pre-trained model with transcripts and QA pairs), and domain fine-tuning (fine-tuning slide image and QA pairs). Eventually, our SparrowVQE can understand and connect visual information using the SigLIP model with transcripts using the Phi-2 language model with an MLP adapter. Experimental results demonstrate that our SparrowVQE achieves better performance in our developed MLVQE dataset and outperforms state-of-the-art methods in the other five benchmark VQA datasets. The source code is available at \url{https://github.com/YoushanZhang/SparrowVQE}.
- Abstract(参考訳): VQA(Visual Question Answering)研究は、画像内の自然言語問題に答えるためのAIシステムの構築を目指しているが、VQAの手法は、過度に単純で短い回答をもたらすことが多い。
本稿では,視覚的質問説明(VQE)を導入することにより,VQAが簡潔な応答よりも詳細な説明を提供する能力を高め,視覚的コンテンツとのより複雑なインタラクションの必要性に対処することを目的としている。
885のスライド画像、110,407ワードの書き起こし、9,416のQAペアを含む14週間のストリーミングビデオ機械学習コースからMLVQEデータセットを作成しました。
次に,小パラメータのマルチモーダルモデルであるSparrowVQEを提案する。
我々は,マルチモーダル・プレトレーニング(スライド画像と書き起こし特徴アライメント),インストラクションチューニング(書き起こしとQAペアによる事前学習モデル),ドメインファインチューニング(微調整スライド画像とQAペア)からなる3段階のトレーニング機構でモデルを訓練した。
最終的に、私たちのSparrowVQEは、SigLIPモデルを使用して視覚情報をPhi-2言語モデルとMLPアダプタを使って書き起こしで理解し、接続することができます。
実験結果から,我々のSparrowVQEは,開発したMLVQEデータセットの性能を向上し,他の5つのベンチマークVQAデータセットの最先端手法よりも優れていることが示された。
ソースコードは \url{https://github.com/YoushanZhang/SparrowVQE} で入手できる。
関連論文リスト
- SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset [11.729464930866483]
シンプソンズVQA』(シンプソンズVQA)は、ザ・シンプソンズのテレビ番組から派生したVQAの新しいデータセットである。
従来のVQAタスクだけでなく、画像に関連する無関係な質問を識別するように設計されている。
SimpsonsVQAには、約23Kの画像、166KのQAペア、500Kの判定が含まれている。
論文 参考訳(メタデータ) (2024-10-30T02:30:40Z) - Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering [7.429984955853609]
ビデオ質問応答のための簡単なQ-ViD(ビデオQA)を提案する。
Q-ViDは、フレーム記述を用いたビデオQAに取り組むために、単一の命令対応オープンビジョン言語モデル(InstructBLIP)に依存している。
論文 参考訳(メタデータ) (2024-02-16T13:59:07Z) - Multiple-Question Multiple-Answer Text-VQA [19.228969692887603]
Multi-Question Multiple-Answer (MQMA) は、エンコーダ・デコーダ変換モデルでテキストVQAを行うための新しいアプローチである。
MQMAは、エンコーダの入力として複数の質問とコンテンツを取り込み、デコーダの複数の回答を自動回帰的に予測する。
本稿では,複数の質問や内容と関連する回答の整合性や記述をモデルに教える,新しいMQMA事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-11-15T01:00:02Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Modular Visual Question Answering via Code Generation [134.59005611826777]
モジュラーコード生成として視覚的質問応答を定式化するフレームワークを提案する。
提案手法では、事前学習言語モデル(LM)、画像キャプチャペアで事前学習した視覚モデル、コンテキスト内学習に使用する50のVQA例など、追加のトレーニングは不要である。
コード生成を行わない少数のベースラインと比較して,COVRデータセットの精度を少なくとも3%,GQAデータセットの精度を約2%向上させる。
論文 参考訳(メタデータ) (2023-06-08T17:45:14Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models
with Zero Training [82.30343537942608]
ゼロショットVQAのためのモジュラーフレームワークであるPlug-and-Play VQA(PNP-VQA)を提案する。
まず質問誘導画像キャプションを生成し,そのキャプションを質問応答のコンテキストとしてPLMに渡す。
PNP-VQAはゼロショットVQAv2およびGQAの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-10-17T06:29:54Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z) - Self-Supervised VQA: Answering Visual Questions using Images and
Captions [38.05223339919346]
VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
論文 参考訳(メタデータ) (2020-12-04T01:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。