論文の概要: Multi-Layer Content Interaction Through Quaternion Product For Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2001.05840v2
- Date: Sun, 16 Feb 2020 07:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 18:03:58.651943
- Title: Multi-Layer Content Interaction Through Quaternion Product For Visual
Question Answering
- Title(参考訳): 視覚質問応答のための第4次製品による多層コンテンツインタラクション
- Authors: Lei Shi, Shijie Geng, Kai Shuang, Chiori Hori, Songxiang Liu, Peng
Gao, Sen Su
- Abstract要約: そこで本研究では,すべての中間層間の相互作用を同時に学習するための,効率的な第4次ブロックネットワーク(QBN)を提案する。
提案したQBNでは、視覚的特徴の更新を導くために、全体的テキスト機能を使用します。
ハミルトン四元数生成物は、高層から低層への情報フローを視覚とテキストの両モードで効率的に行うことができる。
- 参考スコア(独自算出の注目度): 25.835302943000485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality fusion technologies have greatly improved the performance of
neural network-based Video Description/Caption, Visual Question Answering (VQA)
and Audio Visual Scene-aware Dialog (AVSD) over the recent years. Most previous
approaches only explore the last layers of multiple layer feature fusion while
omitting the importance of intermediate layers. To solve the issue for the
intermediate layers, we propose an efficient Quaternion Block Network (QBN) to
learn interaction not only for the last layer but also for all intermediate
layers simultaneously. In our proposed QBN, we use the holistic text features
to guide the update of visual features. In the meantime, Hamilton quaternion
products can efficiently perform information flow from higher layers to lower
layers for both visual and text modalities. The evaluation results show our QBN
improved the performance on VQA 2.0, even though using surpass large scale BERT
or visual BERT pre-trained models. Extensive ablation study has been carried
out to testify the influence of each proposed module in this study.
- Abstract(参考訳): マルチモダリティ融合技術は,近年,ニューラルネットワークを用いた映像記述/キャプチャ,vqa(visual question answering)およびavsd(audio visual scene-aware dialog)の性能を大幅に向上させた。
これまでのほとんどのアプローチでは、中間層の重要性を省略しながら、複数の層フィーチャーフュージョンの最後の層のみを探索する。
中間層に対する課題を解決するために,最後の層だけでなく,すべての中間層に対するインタラクションを同時に学習する,効率的な第4次ブロックネットワーク(QBN)を提案する。
提案したQBNでは、視覚的特徴の更新を導くために、全体的テキスト機能を使用します。
一方、ハミルトン四元数生成物は、高層から低層への情報フローを視覚とテキストの両モードで効率的に行うことができる。
評価結果は,大規模なBERTモデルやビジュアルBERT事前学習モデルを超越しても,VQA 2.0の性能が向上したことを示している。
本研究で提案する各モジュールの影響を検証するために,広範なアブレーション研究が行われている。
関連論文リスト
- WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Visual Query Tuning: Towards Effective Usage of Intermediate
Representations for Parameter and Memory Efficient Transfer Learning [19.254454866466187]
視覚変換器の中間機能を集約する視覚クエリチューニング(VQT)を提案する。
VQTは中間機能をそのままに保ち、それらを組み合わせることしか学ばないため、トレーニングではメモリ効率がよい。
VQTは、トランスファーラーニングに中間機能を利用する最先端のアプローチを一貫して超越している。
論文 参考訳(メタデータ) (2022-12-06T18:39:45Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - A Comprehensive Survey and Performance Analysis of Activation Functions
in Deep Learning [23.83339228535986]
さまざまなタイプの問題に対処するために、さまざまなタイプのニューラルネットワークが導入されている。
ニューラルネットワークの主な目標は、非線形分離可能な入力データをより線形分離可能な抽象的特徴に変換することである。
最もポピュラーで一般的な非線形層は、ロジスティックシグモド、タン、ReLU、ELU、Swish、Mishなどのアクティベーション関数(AF)である。
論文 参考訳(メタデータ) (2021-09-29T16:41:19Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Kernelized dense layers for facial expression recognition [10.98068123467568]
本稿では,従来の線形関係ではなく,高次特徴相互作用をキャプチャするカーネル化Dense Layer (KDL)を提案する。
本モデルでは,最先端のアプローチに関して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-09-22T21:02:00Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Associating Multi-Scale Receptive Fields for Fine-grained Recognition [5.079292308180334]
マルチスケールの受容場を2つの操作で関連付けるために,新しい多層非局所(CNL)モジュールを提案する。
CNLはクエリ層とすべてのレスポンス層の間の相関を計算する。
モデルでは,多層層間の空間的依存関係を構築し,より識別的な特徴を学習する。
論文 参考訳(メタデータ) (2020-05-19T01:16:31Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。