論文の概要: Supervising the Transfer of Reasoning Patterns in VQA
- arxiv url: http://arxiv.org/abs/2106.05597v1
- Date: Thu, 10 Jun 2021 08:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:32:00.154626
- Title: Supervising the Transfer of Reasoning Patterns in VQA
- Title(参考訳): VQAにおける共振パターンの伝達の監督
- Authors: Corentin Kervadec, Christian Wolf, Grigory Antipov, Moez Baccouche and
Madiha Nadri
- Abstract要約: VQA(Visual Question Anwering)は、推論を行うのではなく、データセットのバイアスを活用することで有名である。
本稿では,損失関数の正規化項に基づく知識伝達手法を提案する。
また,本手法の有効性をGQAデータセット上で実験的に検証し,BERTライクな自己教師付き事前学習の補完効果を示す。
- 参考スコア(独自算出の注目度): 9.834885796317971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods for Visual Question Anwering (VQA) are notorious for leveraging
dataset biases rather than performing reasoning, hindering generalization. It
has been recently shown that better reasoning patterns emerge in attention
layers of a state-of-the-art VQA model when they are trained on perfect
(oracle) visual inputs. This provides evidence that deep neural networks can
learn to reason when training conditions are favorable enough. However,
transferring this learned knowledge to deployable models is a challenge, as
much of it is lost during the transfer. We propose a method for knowledge
transfer based on a regularization term in our loss function, supervising the
sequence of required reasoning operations. We provide a theoretical analysis
based on PAC-learning, showing that such program prediction can lead to
decreased sample complexity under mild hypotheses. We also demonstrate the
effectiveness of this approach experimentally on the GQA dataset and show its
complementarity to BERT-like self-supervised pre-training.
- Abstract(参考訳): VQA(Visual Question Anwering)は、推論よりもデータセットバイアスを活用することで知られ、一般化を妨げる。
最近、完璧な(oracle)ビジュアルインプットでトレーニングされた際に、最先端のvqaモデルの注意層により良い推論パターンが現れることが示されている。
これにより、深層ニューラルネットワークが、トレーニング条件が十分に好適であるかどうかを判断できることが証明される。
しかし、この学習した知識をデプロイ可能なモデルに転送することは難しい。
損失関数における正規化項に基づく知識伝達法を提案し,必要な推論操作のシーケンスを監督する。
pac-learningに基づく理論的解析を行い,このプログラム予測が軽度仮説下でのサンプル複雑性の低下につながることを示した。
また,本手法の有効性をGQAデータセット上で実験的に検証し,BERTのような自己教師付き事前学習と相補性を示す。
関連論文リスト
- Characterizing out-of-distribution generalization of neural networks: application to the disordered Su-Schrieffer-Heeger model [38.79241114146971]
本稿では、量子位相の分類を訓練したニューラルネットワークの予測において、解釈可能性の手法が信頼を高める方法を示す。
特に, 複雑な分類問題において, 分配外分布の一般化を確実にできることを示す。
この研究は,解釈可能性手法の体系的利用が,科学的問題におけるNNの性能をいかに向上させるかを示す一例である。
論文 参考訳(メタデータ) (2024-06-14T13:24:32Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - How Transferable are Reasoning Patterns in VQA? [10.439369423744708]
視覚の不確実性は、視覚と言語の問題における推論の学習が成功するのを妨げる要因であると主張する。
私たちは視覚的なオラクルを訓練し、大規模な研究では、スプリアスデータセットバイアスを利用する傾向がはるかに低いという実験的証拠を提供します。
我々はこれらの知見を,オーラルからSOTAトランスフォーマーベースのVQAモデルへの推論パターンの転送により活用する。
論文 参考訳(メタデータ) (2021-04-08T10:18:45Z) - Explain by Evidence: An Explainable Memory-based Neural Network for
Question Answering [41.73026155036886]
本稿では,エビデンスに基づくメモリネットワークアーキテクチャを提案する。
データセットを要約し、その決定を下すための証拠を抽出することを学ぶ。
本モデルは,2つの質問応答データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-05T21:18:21Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - DeVLBert: Learning Deconfounded Visio-Linguistic Representations [111.93480424791613]
ドメイン外ビオ言語事前学習の問題点について検討する。
この問題の既存の方法は、純粋に確率ベースである。
介入に基づく学習を行うために,Decon-Linguistic Bertフレームワーク(略称:DeVLBert)を提案する。
論文 参考訳(メタデータ) (2020-08-16T11:09:22Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。