論文の概要: Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads
- arxiv url: http://arxiv.org/abs/2104.14741v1
- Date: Fri, 30 Apr 2021 03:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:41:42.454500
- Title: Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads
- Title(参考訳): Chop Chop BERT: VisualBERTの頭部をチョップするビジュアル質問応答
- Authors: Chenyu Gao and Qi Zhu and Peng Wang and Qi Wu
- Abstract要約: 本稿では,トランスフォーマーモデルにおける個々の頭部と層の役割について検討する。
我々は、異なる頭と層が異なる質問タイプに責任があることを示し、より高いレベルの層がより高いレベルの視覚的推論質問によって活性化される。
当社の動的チョッピングモジュールは、VQAタスクで1%未満の精度を損なうことなく、元のモデルのパラメータを効果的に50%削減することができます。
- 参考スコア(独自算出の注目度): 19.33264134435471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language (VL) pre-training has shown great potential on many
related downstream tasks, such as Visual Question Answering (VQA), one of the
most popular problems in the VL field. All of these pre-trained models (such as
VisualBERT, ViLBERT, LXMERT and UNITER) are built with Transformer, which
extends the classical attention mechanism to multiple layers and heads. To
investigate why and how these models work on VQA so well, in this paper we
explore the roles of individual heads and layers in Transformer models when
handling $12$ different types of questions. Specifically, we manually remove
(chop) heads (or layers) from a pre-trained VisualBERT model at a time, and
test it on different levels of questions to record its performance. As shown in
the interesting echelon shape of the result matrices, experiments reveal
different heads and layers are responsible for different question types, with
higher-level layers activated by higher-level visual reasoning questions. Based
on this observation, we design a dynamic chopping module that can automatically
remove heads and layers of the VisualBERT at an instance level when dealing
with different questions. Our dynamic chopping module can effectively reduce
the parameters of the original model by 50%, while only damaging the accuracy
by less than 1% on the VQA task.
- Abstract(参考訳): VL(Vision-and-Language)事前トレーニングは、VL分野で最も一般的な問題の一つである視覚質問回答(VQA)など、多くの下流タスクにおいて大きな可能性を示している。
これらの事前訓練されたモデル(VisualBERT、ViLBERT、LXMERT、UNITERなど)はTransformerで構築されており、古典的な注意機構を複数の層や頭まで拡張している。
本稿では,これらのモデルがVQA上でどのように動作するのかを考察するため,トランスフォーマーモデルにおける個々の頭部と層の役割について,12ドルの異なる質問を取り扱う際に検討する。
具体的には、トレーニング済みのVisualBERTモデルからヘッド(またはレイヤ)を一度に手動で取り除き、異なるレベルの質問でテストしてパフォーマンスを記録します。
結果行列の興味深いエキロン形状で示されるように、実験では、異なる頭部と層が異なる質問タイプに責任があることが示され、高いレベルの層は高レベルの視覚的推論の質問によって活性化される。
この観測に基づいて、異なる質問を扱う際に、インスタンスレベルでVisualBERTの頭や層を自動的に取り除くことができる動的チョッピングモジュールを設計する。
私たちの動的チョッピングモジュールは、vqaタスクで精度を1%未満に抑えながら、元のモデルのパラメータを50%効果的に削減できます。
関連論文リスト
- Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,関連する情報を符号化するキー隠蔽状態をローカライズするために,語彙投影とアクティベーションパッチ手法を用いる。
特定の回答記号の予測は、一つの中間層、特にその多頭部自己認識機構に因果関係があることが示される。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - Using Visual Cropping to Enhance Fine-Detail Question Answering of
BLIP-Family Models [6.063024872936599]
視覚的トリミングは,詳細な質問に対して,最先端の視覚的質問応答モデルの性能を向上させることができるかを検討する。
CLIPとBLIPビジュアルQAモデル勾配によるマルチモーダル埋め込みに基づく2つの自動収穫戦略を考案する。
原画像と勾配画像の連結を単純に入力することで,一般VQAランダムタスクの4.59%(絶対)の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T22:48:27Z) - BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - Weakly Supervised Grounding for VQA in Vision-Language Transformers [112.5344267669495]
本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。
このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-05T22:06:03Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z) - Multi-Layer Content Interaction Through Quaternion Product For Visual
Question Answering [25.835302943000485]
そこで本研究では,すべての中間層間の相互作用を同時に学習するための,効率的な第4次ブロックネットワーク(QBN)を提案する。
提案したQBNでは、視覚的特徴の更新を導くために、全体的テキスト機能を使用します。
ハミルトン四元数生成物は、高層から低層への情報フローを視覚とテキストの両モードで効率的に行うことができる。
論文 参考訳(メタデータ) (2020-01-03T02:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。