論文の概要: In Defense of Grid Features for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2001.03615v2
- Date: Thu, 2 Apr 2020 19:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:13:10.876116
- Title: In Defense of Grid Features for Visual Question Answering
- Title(参考訳): 視覚的質問応答のためのグリッド特徴の防衛
- Authors: Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller,
Xinlei Chen
- Abstract要約: 視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
- 参考スコア(独自算出の注目度): 65.71985794097426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Popularized as 'bottom-up' attention, bounding box (or region) based visual
features have recently surpassed vanilla grid-based convolutional features as
the de facto standard for vision and language tasks like visual question
answering (VQA). However, it is not clear whether the advantages of regions
(e.g. better localization) are the key reasons for the success of bottom-up
attention. In this paper, we revisit grid features for VQA, and find they can
work surprisingly well - running more than an order of magnitude faster with
the same accuracy (e.g. if pre-trained in a similar fashion). Through extensive
experiments, we verify that this observation holds true across different VQA
models (reporting a state-of-the-art accuracy on VQA 2.0 test-std, 72.71),
datasets, and generalizes well to other tasks like image captioning. As grid
features make the model design and training process much simpler, this enables
us to train them end-to-end and also use a more flexible network design. We
learn VQA models end-to-end, from pixels directly to answers, and show that
strong performance is achievable without using any region annotations in
pre-training. We hope our findings help further improve the scientific
understanding and the practical application of VQA. Code and features will be
made available.
- Abstract(参考訳): ボトムアップ”として普及したバウンディングボックス(あるいはリージョン)ベースのビジュアル機能は,視覚や言語タスクのデファクトスタンダードであるvqa(visual question answering)として,バニラグリッドベースの畳み込み機能を上回っている。
しかし、地域(例えば、より良いローカライゼーション)の利点がボトムアップ・アテンションの成功の鍵となる理由であるかどうかは不明である。
本稿では,vqaのグリッド機能を再検討し,同じ精度で1桁以上の速度で(例えば,同じ方法で事前トレーニングされた場合など)動作させることで,驚くほどうまく機能することを確認した。
広範な実験を通じて、この観測が様々なVQAモデル(VQA 2.0 test-std, 72.71)で真であることを確認し、画像キャプションのような他のタスクによく当てはまる。
グリッド機能はモデル設計とトレーニングプロセスをずっとシンプルにするので、エンドツーエンドでトレーニングできるだけでなく、より柔軟なネットワーク設計も利用できます。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
VQAの科学的理解と実用性をさらに向上させることを願っている。
コードと機能は利用可能になる。
関連論文リスト
- Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文 参考訳(メタデータ) (2022-10-13T15:01:15Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Reducing Language Biases in Visual Question Answering with
Visually-Grounded Question Encoder [12.56413718364189]
VQAのための新しいモデルに依存しない質問エンコーダVGQE(Visually-Grounded Question)を提案する。
VGQEは、質問をエンコードしながら、視覚と言語の両方のモダリティを等しく利用する。
VGQEが最近の3つのVQAモデルに与える影響を実証し、最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T05:36:36Z) - Visual Grounding Methods for VQA are Working for the Wrong Reasons! [24.84797949716142]
性能改善は、視覚的接地の改善の結果ではなく、正規化効果であることを示す。
本稿では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現する簡易な正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-12T21:45:23Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。