論文の概要: Compressing And Debiasing Vision-Language Pre-Trained Models for Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2210.14558v1
- Date: Wed, 26 Oct 2022 08:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:59:31.905064
- Title: Compressing And Debiasing Vision-Language Pre-Trained Models for Visual
Question Answering
- Title(参考訳): 視覚質問応答のための事前学習モデル圧縮とデバイアス
- Authors: Qingyi Si, Yuanxin Liu, Zheng Lin, Peng Fu and Weiping Wang
- Abstract要約: 本研究では,スパースやロバストワークを探索することで,視覚言語モデルを同時に圧縮・デバイアス化できるかどうかを検討する。
以上の結果から,疎結合でロバストなLXMERTworksは,パラメータがはるかに少ない(偏りを伴わない)モデルよりも優れていたことが示唆された。
これらのワークはまた、同等または少ないパラメータを持つ現在のSoTAデバイアスモデルを超えている。
- 参考スコア(独自算出の注目度): 18.602634027344664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the excellent performance of large-scale vision-language pre-trained
models (VLPs) on conventional visual question answering task, they still suffer
from two problems: First, VLPs tend to rely on language biases in datasets and
fail to generalize to out-of-distribution (OOD) data. Second, they are
inefficient in terms of memory footprint and computation. Although promising
progress has been made in both problems, most existing works tackle them
independently. To facilitate the application of VLP to VQA tasks, it is
imperative to jointly study VLP compression and OOD robustness, which, however,
has not yet been explored. In this paper, we investigate whether a VLP can be
compressed and debiased simultaneously by searching sparse and robust
subnetworks. To this end, we conduct extensive experiments with LXMERT, a
representative VLP, on the OOD dataset VQA-CP v2. We systematically study the
design of a training and compression pipeline to search the subnetworks, as
well as the assignment of sparsity to different modality-specific modules. Our
results show that there indeed exist sparse and robust LXMERT subnetworks,
which significantly outperform the full model (without debiasing) with much
fewer parameters. These subnetworks also exceed the current SoTA debiasing
models with comparable or fewer parameters. We will release the codes on
publication.
- Abstract(参考訳): 従来の視覚的質問応答タスクにおける大規模視覚言語事前学習モデル(VLP)の優れたパフォーマンスにもかかわらず、それらはまだ2つの問題に悩まされている。
第二に、メモリフットプリントと計算の点で非効率である。
どちらの問題にも有望な進展があったが、既存の作業の多くは独立して対処している。
VLPのVQAタスクへの適用を容易にするため、VLP圧縮とOODロバスト性について共同研究することが不可欠であるが、まだ検討されていない。
本稿では, スパースとロバストなサブネットを探索することにより, VLPを同時に圧縮・脱バイアスできるかどうかを検討する。
そこで我々は,OODデータセットのVQA-CP v2上で,代表的VLPであるLXMERTを用いて広範な実験を行った。
我々は,サブネットワークを探索するためのトレーニングおよび圧縮パイプラインの設計と,異なるモダリティ固有のモジュールへのスパーシティの割り当てを体系的に検討する。
以上の結果から,LXMERTサブネットワークは,パラメータがはるかに少ない(偏りを伴わない)モデルよりもはるかに優れていることがわかった。
これらのサブネットワークは、同等または少ないパラメータを持つ現在のSoTAデバイアスモデルを超えている。
私たちは公開するコードをリリースします。
関連論文リスト
- Task Progressive Curriculum Learning for Robust Visual Question Answering [6.2175732887853545]
トレーニング戦略をシンプルに拡張することで、堅牢なビジュアル質問回答が実現可能であることを初めて示します。
提案手法であるタスクプログレッシブ・カリキュラム・ラーニング(TPCL)では,主課題であるVQA問題をより小さく,より簡単なタスクに分解する。
標準データセットの包括的評価により,TPCLの有効性を示す。
論文 参考訳(メタデータ) (2024-11-26T10:29:47Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.87983344862402]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。
PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。
最近の研究では、スパースワークはパフォーマンスを損なうことなくスパースワークに置き換えることができることが示されている。
論文 参考訳(メタデータ) (2022-10-11T07:26:34Z) - VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations [28.322824790738768]
Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
論文 参考訳(メタデータ) (2022-07-01T06:25:53Z) - LPF: A Language-Prior Feedback Objective Function for De-biased Visual
Question Answering [11.845589863914853]
本稿では,視覚的質問応答(VQA)損失における各回答の損失値の比率を再バランスさせるための,新たなLanguage-Prior Feedback(LPF)目標関数を提案する。
実験により, LPFは様々なVQAモデルに対して顕著な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-29T13:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。