論文の概要: Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets
- arxiv url: http://arxiv.org/abs/2210.07076v1
- Date: Thu, 13 Oct 2022 15:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:35:40.037473
- Title: Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets
- Title(参考訳): Few-Shot Visual Question Generation: 新しいタスクとベンチマークデータセット
- Authors: Anurag Roy, David Johnson Ekka, Saptarshi Ghosh, Abir Das
- Abstract要約: 本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
- 参考スコア(独自算出の注目度): 5.45761450227064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating natural language questions from visual scenes, known as Visual
Question Generation (VQG), has been explored in the recent past where large
amounts of meticulously labeled data provide the training corpus. However, in
practice, it is not uncommon to have only a few images with question
annotations corresponding to a few types of answers. In this paper, we propose
a new and challenging Few-Shot Visual Question Generation (FS-VQG) task and
provide a comprehensive benchmark to it. Specifically, we evaluate various
existing VQG approaches as well as popular few-shot solutions based on
meta-learning and self-supervised strategies for the FS-VQG task. We conduct
experiments on two popular existing datasets VQG and Visual7w. In addition, we
have also cleaned and extended the VQG dataset for use in a few-shot scenario,
with additional image-question pairs as well as additional answer categories.
We call this new dataset VQG-23. Several important findings emerge from our
experiments, that shed light on the limits of current models in few-shot vision
and language generation tasks. We find that trivially extending existing VQG
approaches with transfer learning or meta-learning may not be enough to tackle
the inherent challenges in few-shot VQG. We believe that this work will
contribute to accelerating the progress in few-shot learning research.
- Abstract(参考訳): ヴィジュアル・クエスチョン・ジェネレーション(vqg)として知られる視覚シーンからの自然言語質問の生成は、近年、大量の注意深いラベル付きデータがトレーニングコーパスを提供する場所で研究されている。
しかし、実際には、数種類の回答に対応する質問注記のある画像がわずか数個しかないことは珍しくない。
本稿では,新しい難易度で難易度の高い視覚質問生成(fs-vqg)タスクを提案し,それに対する総合的なベンチマークを提供する。
具体的には、FS-VQGタスクのメタラーニングと自己教師型戦略に基づいて、既存のVQGアプローチと、一般的な数ショットソリューションを評価した。
VQGとVisual7wの2つの一般的なデータセットについて実験を行った。
さらに、数回のシナリオで使用するvqgデータセットのクリーン化と拡張を行い、画像検索ペアの追加、回答カテゴリの追加も行っています。
この新しいデータセットをVQG-23と呼ぶ。
私たちの実験からいくつかの重要な発見が生まれ、わずかなビジョンと言語生成タスクにおける現在のモデルの限界に光を当てた。
移行学習やメタラーニングによって既存のVQGアプローチを自明に拡張することは、数ショットのVQGで固有の課題に取り組むのに十分ではない。
この研究は、少数の学習研究の進歩の加速に寄与すると信じています。
関連論文リスト
- ConVQG: Contrastive Visual Question Generation with Multimodal Guidance [20.009626292937995]
本研究では,コントラスト的視覚質問生成(ConVQG)を提案し,画像的,テキスト的,知識に富んだ質問を生成する。
知識認識と標準VQGベンチマークの実験は、ConVQGが最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-20T09:20:30Z) - From Image to Language: A Critical Analysis of Visual Question Answering
(VQA) Approaches, Challenges, and Opportunities [2.259291861960906]
この研究は、VQAデータセットとフィールドの歴史に関するメソッドの複雑さを掘り下げる、VQA(Visual Question Answering)の領域における調査である。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
論文 参考訳(メタデータ) (2023-11-01T05:39:41Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。