論文の概要: Multi-Layer Content Interaction Through Quaternion Product For Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2001.05840v2
- Date: Sun, 16 Feb 2020 07:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 18:03:58.651943
- Title: Multi-Layer Content Interaction Through Quaternion Product For Visual
Question Answering
- Title(参考訳): 視覚質問応答のための第4次製品による多層コンテンツインタラクション
- Authors: Lei Shi, Shijie Geng, Kai Shuang, Chiori Hori, Songxiang Liu, Peng
Gao, Sen Su
- Abstract要約: そこで本研究では,すべての中間層間の相互作用を同時に学習するための,効率的な第4次ブロックネットワーク(QBN)を提案する。
提案したQBNでは、視覚的特徴の更新を導くために、全体的テキスト機能を使用します。
ハミルトン四元数生成物は、高層から低層への情報フローを視覚とテキストの両モードで効率的に行うことができる。
- 参考スコア(独自算出の注目度): 25.835302943000485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality fusion technologies have greatly improved the performance of
neural network-based Video Description/Caption, Visual Question Answering (VQA)
and Audio Visual Scene-aware Dialog (AVSD) over the recent years. Most previous
approaches only explore the last layers of multiple layer feature fusion while
omitting the importance of intermediate layers. To solve the issue for the
intermediate layers, we propose an efficient Quaternion Block Network (QBN) to
learn interaction not only for the last layer but also for all intermediate
layers simultaneously. In our proposed QBN, we use the holistic text features
to guide the update of visual features. In the meantime, Hamilton quaternion
products can efficiently perform information flow from higher layers to lower
layers for both visual and text modalities. The evaluation results show our QBN
improved the performance on VQA 2.0, even though using surpass large scale BERT
or visual BERT pre-trained models. Extensive ablation study has been carried
out to testify the influence of each proposed module in this study.
- Abstract(参考訳): マルチモダリティ融合技術は,近年,ニューラルネットワークを用いた映像記述/キャプチャ,vqa(visual question answering)およびavsd(audio visual scene-aware dialog)の性能を大幅に向上させた。
これまでのほとんどのアプローチでは、中間層の重要性を省略しながら、複数の層フィーチャーフュージョンの最後の層のみを探索する。
中間層に対する課題を解決するために,最後の層だけでなく,すべての中間層に対するインタラクションを同時に学習する,効率的な第4次ブロックネットワーク(QBN)を提案する。
提案したQBNでは、視覚的特徴の更新を導くために、全体的テキスト機能を使用します。
一方、ハミルトン四元数生成物は、高層から低層への情報フローを視覚とテキストの両モードで効率的に行うことができる。
評価結果は,大規模なBERTモデルやビジュアルBERT事前学習モデルを超越しても,VQA 2.0の性能が向上したことを示している。
本研究で提案する各モジュールの影響を検証するために,広範なアブレーション研究が行われている。
関連論文リスト
- Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Visual Query Tuning: Towards Effective Usage of Intermediate
Representations for Parameter and Memory Efficient Transfer Learning [19.254454866466187]
視覚変換器の中間機能を集約する視覚クエリチューニング(VQT)を提案する。
VQTは中間機能をそのままに保ち、それらを組み合わせることしか学ばないため、トレーニングではメモリ効率がよい。
VQTは、トランスファーラーニングに中間機能を利用する最先端のアプローチを一貫して超越している。
論文 参考訳(メタデータ) (2022-12-06T18:39:45Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Kernelized dense layers for facial expression recognition [10.98068123467568]
本稿では,従来の線形関係ではなく,高次特徴相互作用をキャプチャするカーネル化Dense Layer (KDL)を提案する。
本モデルでは,最先端のアプローチに関して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-09-22T21:02:00Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Associating Multi-Scale Receptive Fields for Fine-grained Recognition [5.079292308180334]
マルチスケールの受容場を2つの操作で関連付けるために,新しい多層非局所(CNL)モジュールを提案する。
CNLはクエリ層とすべてのレスポンス層の間の相関を計算する。
モデルでは,多層層間の空間的依存関係を構築し,より識別的な特徴を学習する。
論文 参考訳(メタデータ) (2020-05-19T01:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。