論文の概要: Transformer Module Networks for Systematic Generalization in Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2201.11316v1
- Date: Thu, 27 Jan 2022 04:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-29 00:20:17.585856
- Title: Transformer Module Networks for Systematic Generalization in Visual
Question Answering
- Title(参考訳): 視覚質問応答におけるシステム一般化のためのトランスフォーマーモジュールネットワーク
- Authors: Moyuru Yamada, Vanessa D'Amario, Kentaro Takemoto, Xavier Boix, and
Tomotake Sasaki
- Abstract要約: Transformer Module Network (TMN) はモジュールを質問固有のTransformerネットワークに動的に構成する。
TMNは3つのVQAデータセットで最先端の系統的一般化性能を達成する。
- 参考スコア(独自算出の注目度): 4.169829151981242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models achieve great performance on Visual Question
Answering (VQA). However, when we evaluate them on systematic generalization,
i.e., handling novel combinations of known concepts, their performance
degrades. Neural Module Networks (NMNs) are a promising approach for systematic
generalization that consists on composing modules, i.e., neural networks that
tackle a sub-task. Inspired by Transformers and NMNs, we propose Transformer
Module Network (TMN), a novel Transformer-based model for VQA that dynamically
composes modules into a question-specific Transformer network. TMNs achieve
state-of-the-art systematic generalization performance in three VQA datasets,
namely, CLEVR-CoGenT, CLOSURE and GQA-SGL, in some cases improving more than
30% over standard Transformers.
- Abstract(参考訳): トランスフォーマーベースのモデルは、VQA(Visual Question Answering)上で優れたパフォーマンスを達成する。
しかし、体系的な一般化、すなわち既知の概念の新しい組み合わせを扱う場合、それらの性能は劣化する。
neural module network(nmns)は、モジュール、すなわちサブタスクに取り組むニューラルネットワークを構成することに基づく、体系的な一般化のための有望なアプローチである。
トランスフォーマーとNMNにインスパイアされたトランスフォーマーモジュールネットワーク(TMN)は,モジュールを問合せ固有のトランスフォーマーネットワークに動的に構成する新しいトランスフォーマーベースモデルである。
TMNは3つのVQAデータセット、すなわちCLEVR-CoGenT、CLOSURE、GQA-SGLにおいて、最先端の体系的な一般化性能を達成する。
関連論文リスト
- Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。
畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。
線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文 参考訳(メタデータ) (2024-09-26T07:24:09Z) - Breaking Neural Network Scaling Laws with Modularity [8.482423139660153]
一般化に必要なトレーニングデータの量は、タスクの入力の内在的な次元によってどのように異なるかを示す。
そして、この利点を活かすために、モジュールネットワークのための新しい学習ルールを開発します。
論文 参考訳(メタデータ) (2024-09-09T16:43:09Z) - NAR-Former V2: Rethinking Transformer for Universal Neural Network
Representation Learning [25.197394237526865]
本稿では,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。
具体的には、ネットワークをグラフとして取り、簡単なトークン化器を設計して、ネットワークをシーケンスにエンコードする。
我々は,GNNの帰納的表現学習能力をTransformerに組み込んだ。
論文 参考訳(メタデータ) (2023-06-19T09:11:04Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - How Modular Should Neural Module Networks Be for Systematic
Generalization? [4.533408938245526]
NMNは、サブタスクに取り組むモジュールの合成を通じて、ビジュアル質問回答(VQA)を目指している。
本稿では,モジュラリティが定義される段階と程度が,体系的な一般化に大きな影響を与えることを示す。
論文 参考訳(メタデータ) (2021-06-15T14:13:47Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - RE-MIMO: Recurrent and Permutation Equivariant Neural MIMO Detection [85.44877328116881]
無線通信システムにおけるシンボル検出のための新しいニューラルネットワークを提案する。
無線通信システムにおけるいくつかの重要な考察に動機付けられている。
その性能を既存手法と比較し,ネットワークが可変数の送信機を効率的に処理できることを示す。
論文 参考訳(メタデータ) (2020-06-30T22:43:01Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。