論文の概要: Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images!
- arxiv url: http://arxiv.org/abs/2306.03932v1
- Date: Tue, 6 Jun 2023 18:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 17:48:58.743714
- Title: Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images!
- Title(参考訳): Q: 大規模ビジョンランゲージモデルからデータスカースVQAタスクへ
A: ラベルなし画像のセルフトレイン!
- Authors: Zaid Khan, Vijay Kumar BG, Samuel Schulter, Xiang Yu, Yun Fu, Manmohan
Chandraker
- Abstract要約: SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
- 参考スコア(独自算出の注目度): 103.09776737512077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning a large vision language model (VLM) on a target dataset after
large scale pretraining is a dominant paradigm in visual question answering
(VQA). Datasets for specialized tasks such as knowledge-based VQA or VQA in non
natural-image domains are orders of magnitude smaller than those for
general-purpose VQA. While collecting additional labels for specialized tasks
or domains can be challenging, unlabeled images are often available. We
introduce SelTDA (Self-Taught Data Augmentation), a strategy for finetuning
large VLMs on small-scale VQA datasets. SelTDA uses the VLM and target dataset
to build a teacher model that can generate question-answer pseudolabels
directly conditioned on an image alone, allowing us to pseudolabel unlabeled
images. SelTDA then finetunes the initial VLM on the original dataset augmented
with freshly pseudolabeled images. We describe a series of experiments showing
that our self-taught data augmentation increases robustness to adversarially
searched questions, counterfactual examples and rephrasings, improves domain
generalization, and results in greater retention of numerical reasoning skills.
The proposed strategy requires no additional annotations or architectural
modifications, and is compatible with any modern encoder-decoder multimodal
transformer. Code available at https://github.com/codezakh/SelTDA.
- Abstract(参考訳): 大規模事前訓練後のターゲットデータセット上の大規模視覚言語モデル(VLM)を微調整することは、視覚的質問応答(VQA)において支配的なパラダイムである。
非自然像領域における知識ベースVQAやVQAのような特殊タスクのデータセットは、汎用VQAよりも桁違いに小さい。
専門的なタスクやドメインのための追加ラベルの収集は難しい場合があるが、ラベルなしの画像はしばしば利用可能である。
SelTDA(Self-Taught Data Augmentation)は,小型VQAデータセット上で大規模VLMを微調整するための戦略である。
seltdaでは、vlmとターゲットデータセットを使用して、画像のみに条件付けされた質問応答擬似ラベルを生成可能な教師モデルを構築しています。
次にSelTDAは、新たに擬似ラベル付きイメージを付加した元のデータセットで初期VLMを微調整する。
本稿では, 自己学習によるデータ拡張が, 逆探索された質問, 反実例, 言い換えに対する堅牢性を高め, ドメインの一般化を向上し, 数値推論スキルの維持につながることを示す一連の実験について述べる。
提案された戦略は追加のアノテーションやアーキテクチャの変更を必要とせず、現代のエンコーダ・デコーダ・マルチモーダルトランスフォーマーと互換性がある。
コードはhttps://github.com/codezakh/seltda。
関連論文リスト
- CLIP-Guided Attribute Aware Pretraining for Generalizable Image Quality Assessment [25.680035174334886]
no-reference Image Quality Assessment (NR-IQA)では、限られたデータセットサイズでの課題は、堅牢で一般化可能なモデルの開発を妨げている。
本稿では,高品質な知識を選択的に抽出し,IQAの一般化可能な表現を構築する新しい事前学習フレームワークを提案する。
提案手法は,複数のIQAデータセット上での最先端性能を実現し,優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-06-03T06:03:57Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Generative Visual Question Answering [0.0]
本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
論文 参考訳(メタデータ) (2023-07-18T05:30:23Z) - Discovering the Unknown Knowns: Turning Implicit Knowledge in the
Dataset into Explicit Training Examples for Visual Question Answering [18.33311267792116]
学習したVQAモデルに対する「未知」の多くは、データセットの中で暗黙的に「未知」であることがわかった。
我々は、この"既知の"知識をVQAのトレーニング例に変換するために、シンプルなデータ拡張パイプラインSimpleAugを紹介します。
論文 参考訳(メタデータ) (2021-09-13T16:56:43Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z) - Semantic Equivalent Adversarial Data Augmentation for Visual Question
Answering [65.54116210742511]
ディープニューラルネットワーク(DNN)の急速な発展により、VQA(Visual Question Answering)は大きな成功を収めた。
本稿では,画像と質問を直接操作する代わりに,画像と質問の両方に対して生成した逆例を拡張データとして使用する。
VQAv2の全体的な性能は向上するばかりでなく、敵攻撃に効果的に対応できることがわかりました。
論文 参考訳(メタデータ) (2020-07-19T05:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。