論文の概要: Compressing And Debiasing Vision-Language Pre-Trained Models for Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2210.14558v2
- Date: Wed, 11 Oct 2023 18:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 15:26:28.918576
- Title: Compressing And Debiasing Vision-Language Pre-Trained Models for Visual
Question Answering
- Title(参考訳): 視覚質問応答のための事前学習モデル圧縮とデバイアス
- Authors: Qingyi Si, Yuanxin Liu, Zheng Lin, Peng Fu and Weiping Wang
- Abstract要約: 本稿では,スパースとロバストワークを探索することにより,視覚言語事前学習モデルを同時に圧縮・デバイアスできるかどうかを検討する。
以上の結果から, 疎水性, 頑健性は, 偏りに満ちた部分と競合することが明らかとなった。
車だ
- 参考スコア(独自算出の注目度): 25.540831728925557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the excellent performance of vision-language pre-trained models
(VLPs) on conventional VQA task, they still suffer from two problems: First,
VLPs tend to rely on language biases in datasets and fail to generalize to
out-of-distribution (OOD) data. Second, they are inefficient in terms of memory
footprint and computation. Although promising progress has been made in both
problems, most existing works tackle them independently. To facilitate the
application of VLP to VQA tasks, it is imperative to jointly study VLP
compression and OOD robustness, which, however, has not yet been explored. This
paper investigates whether a VLP can be compressed and debiased simultaneously
by searching sparse and robust subnetworks. To this end, we systematically
study the design of a training and compression pipeline to search the
subnetworks, as well as the assignment of sparsity to different
modality-specific modules. Our experiments involve 3 VLPs, 2 compression
methods, 4 training methods, 2 datasets and a range of sparsity levels and
random seeds. Our results show that there indeed exist sparse and robust
subnetworks, which are competitive with the debiased full VLP and clearly
outperform the debiasing SoTAs with fewer parameters on OOD datasets VQA-CP v2
and VQA-VS. The codes can be found at
https://github.com/PhoebusSi/Compress-Robust-VQA.
- Abstract(参考訳): 従来のVQAタスクにおける視覚言語事前学習モデル(VLP)の性能は優れているが、それでも2つの問題に悩まされている。
第二に、メモリフットプリントと計算の点で非効率である。
どちらの問題にも有望な進展があったが、既存の作業の多くは独立して対処している。
VLPのVQAタスクへの適用を容易にするため、VLP圧縮とOODロバスト性について共同研究することが不可欠であるが、まだ検討されていない。
本稿では, スパースとロバストなサブネットを探索することにより, VLPを同時に圧縮・脱バイアスできるかどうかを検討する。
この目的のために,サブネットワークを探索するためのトレーニングおよび圧縮パイプラインの設計と,異なるモダリティ固有のモジュールへのスパーシティの割り当てを体系的に検討する。
実験では,3つのvlp,2つの圧縮方法,4つのトレーニング方法,2つのデータセット,さまざまなスパーシティレベルとランダムシードを用いた。
以上の結果から, 完全VLPと競合し, OODデータセットのVQA-CP v2とVQA-VSのパラメータが少なく, 脱バイアスのSOTAよりも明らかに優れる, スパース・ロバストなサブネットワークが存在することが明らかとなった。
コードはhttps://github.com/PhoebusSi/Compress-Robust-VQAで見ることができる。
関連論文リスト
- Task Progressive Curriculum Learning for Robust Visual Question Answering [6.2175732887853545]
トレーニング戦略をシンプルに拡張することで、堅牢なビジュアル質問回答が実現可能であることを初めて示します。
提案手法であるタスクプログレッシブ・カリキュラム・ラーニング(TPCL)では,主課題であるVQA問題をより小さく,より簡単なタスクに分解する。
標準データセットの包括的評価により,TPCLの有効性を示す。
論文 参考訳(メタデータ) (2024-11-26T10:29:47Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.87983344862402]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。
PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。
最近の研究では、スパースワークはパフォーマンスを損なうことなくスパースワークに置き換えることができることが示されている。
論文 参考訳(メタデータ) (2022-10-11T07:26:34Z) - VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations [28.322824790738768]
Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
論文 参考訳(メタデータ) (2022-07-01T06:25:53Z) - LPF: A Language-Prior Feedback Objective Function for De-biased Visual
Question Answering [11.845589863914853]
本稿では,視覚的質問応答(VQA)損失における各回答の損失値の比率を再バランスさせるための,新たなLanguage-Prior Feedback(LPF)目標関数を提案する。
実験により, LPFは様々なVQAモデルに対して顕著な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-29T13:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。