論文の概要: Barlow constrained optimization for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2203.03727v1
- Date: Mon, 7 Mar 2022 21:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:28:33.353071
- Title: Barlow constrained optimization for Visual Question Answering
- Title(参考訳): 視覚的質問応答に対するbarlow制約付き最適化
- Authors: Abhishek Jha, Badri N. Patro, Luc Van Gool, Tinne Tuytelaars
- Abstract要約: 本稿では,バーロウ理論(COB)を用いたVQAモデルの新たな正規化,制約付き最適化を提案する。
我々のモデルは、解答と画像+クエストを、本質的に同じ意味情報である2つの異なる視点として考える、解答埋め込み空間と結合空間を整合させる。
最先端のGEモデルに基づく場合、VQAの精度はVQA-CP v2データセットとVQA v2データセットでそれぞれ1.4%向上する。
- 参考スコア(独自算出の注目度): 105.3372546782068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering is a vision-and-language multimodal task, that aims
at predicting answers given samples from the question and image modalities.
Most recent methods focus on learning a good joint embedding space of images
and questions, either by improving the interaction between these two
modalities, or by making it a more discriminant space. However, how informative
this joint space is, has not been well explored. In this paper, we propose a
novel regularization for VQA models, Constrained Optimization using Barlow's
theory (COB), that improves the information content of the joint space by
minimizing the redundancy. It reduces the correlation between the learned
feature components and thereby disentangles semantic concepts. Our model also
aligns the joint space with the answer embedding space, where we consider the
answer and image+question as two different `views' of what in essence is the
same semantic information. We propose a constrained optimization policy to
balance the categorical and redundancy minimization forces. When built on the
state-of-the-art GGE model, the resulting model improves VQA accuracy by 1.4%
and 4% on the VQA-CP v2 and VQA v2 datasets respectively. The model also
exhibits better interpretability.
- Abstract(参考訳): 視覚的質問応答は視覚と言語によるマルチモーダルタスクであり、質問と画像のモダリティから与えられた回答を予測することを目的としている。
最近の手法は、画像と質問の良好な埋め込み空間を学習することに焦点を当てており、これらの2つのモダリティ間の相互作用を改善するか、より判別可能な空間にする。
しかし、この結合空間がいかに情報的であるかは、十分に調査されていない。
本稿では,冗長性を最小限に抑え,ジョイント空間の情報内容を改善するために,バーロウ理論(cob)を用いたvqaモデルの新たな正規化を提案する。
学習した特徴コンポーネント間の相関を減らし、セマンティックな概念を歪めます。
私たちのモデルは、答えとイメージ+クエスチョンを、本質的に同じ意味的情報である2つの異なる「ビュー」と見なす、結合空間と解埋め込み空間を整合させる。
分類的および冗長性の最小化力のバランスをとるための制約付き最適化政策を提案する。
最先端のGEモデルに基づく場合、VQAの精度はVQA-CP v2データセットとVQA v2データセットでそれぞれ1.4%向上する。
モデルの解釈性も向上している。
関連論文リスト
- LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling [3.9426000822656224]
より潜在的な空間はより表現力が高く、ベクトル量子化アプローチよりも表現性がよいことを示す。
以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-16T08:20:58Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。