論文の概要: Analysis on Image Set Visual Question Answering
- arxiv url: http://arxiv.org/abs/2104.00107v1
- Date: Wed, 31 Mar 2021 20:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 08:25:10.573873
- Title: Analysis on Image Set Visual Question Answering
- Title(参考訳): 画像集合による視覚的質問応答の分析
- Authors: Abhinav Khattar, Aviral Joshi, Har Simrat Singh, Pulkit Goel, Rohit
Prakash Barnwal
- Abstract要約: マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
- 参考スコア(独自算出の注目度): 0.3359875577705538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the challenge of Visual Question Answering in multi-image setting
for the ISVQA dataset. Traditional VQA tasks have focused on a single-image
setting where the target answer is generated from a single image. Image set
VQA, however, comprises of a set of images and requires finding connection
between images, relate the objects across images based on these connections and
generate a unified answer. In this report, we work with 4 approaches in a bid
to improve the performance on the task. We analyse and compare our results with
three baseline models - LXMERT, HME-VideoQA and VisualBERT - and show that our
approaches can provide a slight improvement over the baselines. In specific, we
try to improve on the spatial awareness of the model and help the model
identify color using enhanced pre-training, reduce language dependence using
adversarial regularization, and improve counting using regression loss and
graph based deduplication. We further delve into an in-depth analysis on the
language bias in the ISVQA dataset and show how models trained on ISVQA
implicitly learn to associate language more strongly with the final answer.
- Abstract(参考訳): ISVQAデータセットのマルチイメージ設定における視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
しかし、画像セットVQAは一連の画像から構成されており、画像間の接続を見つけ、これらの接続に基づいて画像間のオブジェクトを関連付け、統一された回答を生成する必要がある。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
結果をLXMERT、HME-VideoQA、VisualBERTの3つのベースラインモデルと比較し、ベースラインよりもわずかに改善できることを示します。
具体的には、モデルの空間的認識を改善し、事前学習の強化による色識別を支援し、逆正則化による言語依存を低減し、回帰損失とグラフに基づく重複によるカウントを改善する。
さらに、ISVQAデータセットの言語バイアスに関する詳細な分析を行い、ISVQAでトレーニングされたモデルが、最終回答とより強く関連付けることを暗黙的に学習する方法を示す。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Investigating Prompting Techniques for Zero- and Few-Shot Visual
Question Answering [7.640416680391081]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z) - Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文 参考訳(メタデータ) (2023-06-06T18:00:47Z) - Multilingual Augmentation for Robust Visual Question Answering in Remote
Sensing Images [19.99615698375829]
多様な質問テンプレートや単語に対して頑健なRSVQAモデルをトレーニングするための対照的な学習戦略を提案する。
実験の結果,提案手法はRSVQAモデルのロバスト性向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-04-07T21:06:58Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - How to find a good image-text embedding for remote sensing visual
question answering? [41.0510495281302]
視覚的質問応答(VQA)がリモートセンシングに導入され、オーバーヘッド画像から情報を取り出すことが可能になった。
遠隔センシングにおけるVQAの文脈における3つの異なる融合手法について検討し,モデルの複雑さに関する精度の利得を解析した。
論文 参考訳(メタデータ) (2021-09-24T09:48:28Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。