Fugu-MT 論文翻訳(概要): Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering

論文の概要: Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering

arxiv url: http://arxiv.org/abs/2001.05840v2
Date: Sun, 16 Feb 2020 07:25:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-14 18:03:58.651943
Title: Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering
Title（参考訳）: 視覚質問応答のための第4次製品による多層コンテンツインタラクション
Authors: Lei Shi, Shijie Geng, Kai Shuang, Chiori Hori, Songxiang Liu, Peng Gao, Sen Su
Abstract要約: そこで本研究では,すべての中間層間の相互作用を同時に学習するための,効率的な第4次ブロックネットワーク(QBN)を提案する。提案したQBNでは、視覚的特徴の更新を導くために、全体的テキスト機能を使用します。ハミルトン四元数生成物は、高層から低層への情報フローを視覚とテキストの両モードで効率的に行うことができる。
参考スコア（独自算出の注目度）: 25.835302943000485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modality fusion technologies have greatly improved the performance of neural network-based Video Description/Caption, Visual Question Answering (VQA) and Audio Visual Scene-aware Dialog (AVSD) over the recent years. Most previous approaches only explore the last layers of multiple layer feature fusion while omitting the importance of intermediate layers. To solve the issue for the intermediate layers, we propose an efficient Quaternion Block Network (QBN) to learn interaction not only for the last layer but also for all intermediate layers simultaneously. In our proposed QBN, we use the holistic text features to guide the update of visual features. In the meantime, Hamilton quaternion products can efficiently perform information flow from higher layers to lower layers for both visual and text modalities. The evaluation results show our QBN improved the performance on VQA 2.0, even though using surpass large scale BERT or visual BERT pre-trained models. Extensive ablation study has been carried out to testify the influence of each proposed module in this study.
Abstract（参考訳）: マルチモダリティ融合技術は,近年,ニューラルネットワークを用いた映像記述/キャプチャ,vqa(visual question answering)およびavsd(audio visual scene-aware dialog)の性能を大幅に向上させた。これまでのほとんどのアプローチでは、中間層の重要性を省略しながら、複数の層フィーチャーフュージョンの最後の層のみを探索する。中間層に対する課題を解決するために,最後の層だけでなく,すべての中間層に対するインタラクションを同時に学習する,効率的な第4次ブロックネットワーク(QBN)を提案する。提案したQBNでは、視覚的特徴の更新を導くために、全体的テキスト機能を使用します。一方、ハミルトン四元数生成物は、高層から低層への情報フローを視覚とテキストの両モードで効率的に行うことができる。評価結果は,大規模なBERTモデルやビジュアルBERT事前学習モデルを超越しても,VQA 2.0の性能が向上したことを示している。本研究で提案する各モジュールの影響を検証するために,広範なアブレーション研究が行われている。

関連論文リスト

Do All Individual Layers Help? An Empirical Study of Task-Interfering Layers in Vision-Language Models [51.754991950934375]
事前トレーニングされたVLMでは、すべてのレイヤがデフォルトで実行され、下流タスクで予測される。パラメータをゼロにすることで、ひとつの層にインターベンションすることで、特定のタスクのパフォーマンスを向上させることができる。与えられたタスクに対して最も干渉するレイヤを動的に識別し、バイパスする、トレーニング不要なテスト時間適応手法であるTaLoを提案する。
論文参考訳（メタデータ） (2026-02-01T11:37:05Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。 ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文参考訳（メタデータ） (2024-09-12T05:55:32Z)
Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文参考訳（メタデータ） (2024-04-14T19:45:35Z)
WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文参考訳（メタデータ） (2023-01-03T20:57:22Z)
Visual Query Tuning: Towards Effective Usage of Intermediate Representations for Parameter and Memory Efficient Transfer Learning [19.254454866466187]
視覚変換器の中間機能を集約する視覚クエリチューニング(VQT)を提案する。 VQTは中間機能をそのままに保ち、それらを組み合わせることしか学ばないため、トレーニングではメモリ効率がよい。 VQTは、トランスファーラーニングに中間機能を利用する最先端のアプローチを一貫して超越している。
論文参考訳（メタデータ） (2022-12-06T18:39:45Z)
The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文参考訳（メタデータ） (2021-01-29T07:46:39Z)
Neural Function Modules with Sparse Arguments: A Dynamic Approach to Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文参考訳（メタデータ） (2020-10-15T20:43:17Z)
Kernelized dense layers for facial expression recognition [10.98068123467568]
本稿では,従来の線形関係ではなく,高次特徴相互作用をキャプチャするカーネル化Dense Layer (KDL)を提案する。本モデルでは,最先端のアプローチに関して,競争力のある結果が得られることを示す。
論文参考訳（メタデータ） (2020-09-22T21:02:00Z)
Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。 5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文参考訳（メタデータ） (2020-07-17T15:41:37Z)
Associating Multi-Scale Receptive Fields for Fine-grained Recognition [5.079292308180334]
マルチスケールの受容場を2つの操作で関連付けるために,新しい多層非局所(CNL)モジュールを提案する。 CNLはクエリ層とすべてのレスポンス層の間の相関を計算する。モデルでは,多層層間の空間的依存関係を構築し,より識別的な特徴を学習する。
論文参考訳（メタデータ） (2020-05-19T01:16:31Z)
Global Context-Aware Progressive Aggregation Network for Salient Object Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T04:26:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。