論文の概要: Semantic-aware Modular Capsule Routing for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2207.10404v1
- Date: Thu, 21 Jul 2022 10:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:16:08.478777
- Title: Semantic-aware Modular Capsule Routing for Visual Question Answering
- Title(参考訳): 視覚的質問応答のためのセマンティックアウェアモジュールカプセルルーティング
- Authors: Yudong Han, Jianhua Yin, Jianlong Wu, Yinwei Wei, Liqiang Nie
- Abstract要約: SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
- 参考スコア(独自算出の注目度): 55.03883681191765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is fundamentally compositional in nature, and
many questions are simply answered by decomposing them into modular
sub-problems. The recent proposed Neural Module Network (NMN) employ this
strategy to question answering, whereas heavily rest with off-the-shelf layout
parser or additional expert policy regarding the network architecture design
instead of learning from the data. These strategies result in the
unsatisfactory adaptability to the semantically-complicated variance of the
inputs, thereby hindering the representational capacity and generalizability of
the model. To tackle this problem, we propose a Semantic-aware modUlar caPsulE
Routing framework, termed as SUPER, to better capture the instance-specific
vision-semantic characteristics and refine the discriminative representations
for prediction. Particularly, five powerful specialized modules as well as
dynamic routers are tailored in each layer of the SUPER network, and the
compact routing spaces are constructed such that a variety of customizable
routes can be sufficiently exploited and the vision-semantic representations
can be explicitly calibrated. We comparatively justify the effectiveness and
generalization ability of our proposed SUPER scheme over five benchmark
datasets, as well as the parametric-efficient advantage. It is worth
emphasizing that this work is not to pursue the state-of-the-art results in
VQA. Instead, we expect that our model is responsible to provide a novel
perspective towards architecture learning and representation calibration for
VQA.
- Abstract(参考訳): VQA(Visual Question Answering)は、本質的には構成的であり、モジュール化されたサブプロブレムに分解するだけで答えられる。
先日提案されたNeural Module Network(NMN)では、この戦略を使って回答を問う一方で、データから学習するのではなく、ネットワークアーキテクチャ設計に関する既製のレイアウトパーサや追加のエキスパートポリシーに大きく依存している。
これらの戦略は、入力の意味的に補完されたばらつきに対して不十分な適応性をもたらし、モデルの表現能力と一般化性を阻害する。
この問題に対処するため,我々はsuperと呼ばれるモジュール型カプセルルーティングフレームワークを提案し,インスタンス固有の視覚・認識特性をよりよく把握し,予測のための識別表現を洗練する。
特に、SUPERネットワークの各層に5つの強力な専用モジュールと動的ルータを調整し、様々なカスタマイズ可能なルートを十分に活用し、視覚・セマンティックな表現を明示的に調整できるように、コンパクトなルーティング空間を構築する。
我々は,提案するスーパースキームの有効性と一般化を5つのベンチマークデータセットとパラメトリック効率の利点に比較して正当化する。
この研究は、VQAにおける最先端の結果を追求するものではないことを強調する価値がある。
代わりに、私たちのモデルは、VQAのアーキテクチャ学習と表現キャリブレーションに対する新しい視点を提供する責任があると考えています。
関連論文リスト
- Breaking Neural Network Scaling Laws with Modularity [8.482423139660153]
一般化に必要なトレーニングデータの量は、タスクの入力の内在的な次元によってどのように異なるかを示す。
そして、この利点を活かすために、モジュールネットワークのための新しい学習ルールを開発します。
論文 参考訳(メタデータ) (2024-09-09T16:43:09Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - SeqTR: A Simple yet Universal Network for Visual Grounding [88.03253818868204]
本稿では,視覚的接地作業のためのシンプルな汎用ネットワークSeqTRを提案する。
画像とテキストの入力を条件とした点予測問題として,視覚的グラウンドリングを行った。
このパラダイムの下では、視覚的なグラウンドタスクはタスク固有のブランチやヘッドなしでSeqTRネットワークに統合されます。
論文 参考訳(メタデータ) (2022-03-30T12:52:46Z) - Build a Robust QA System with Transformer-based Mixture of Experts [0.29005223064604074]
私たちは、ドメイン外のデータセットに適応できる堅牢な質問応答システムを構築しています。
我々は、ドメイン外評価において、最高のアーキテクチャとデータ拡張技術の組み合わせが53.477 F1スコアを達成することを示す。
論文 参考訳(メタデータ) (2022-03-20T02:38:29Z) - Neural combinatorial optimization beyond the TSP: Existing architectures
under-represent graph structure [9.673093148930876]
我々は、最近のニューラルネットワークが実際に重要なグラフ問題にどのように適用できるのか、その分析を行う。
距離問題の構造的表現を増大させることは、多目的自律型問題解決者を学ぶという、まだ曖昧な目標に向けた有望なステップであることを示す。
論文 参考訳(メタデータ) (2022-01-03T14:14:28Z) - Combining Discrete Choice Models and Neural Networks through Embeddings:
Formulation, Interpretability and Performance [10.57079240576682]
本研究では、ニューラルネットワーク(ANN)を用いた理論とデータ駆動選択モデルを組み合わせた新しいアプローチを提案する。
特に、分類的または離散的説明変数を符号化するために、埋め込みと呼ばれる連続ベクトル表現を用いる。
我々のモデルは最先端の予測性能を提供し、既存のANNモデルよりも優れ、必要なネットワークパラメータの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-09-24T15:55:31Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Obtaining Faithful Interpretations from Compositional Neural Networks [72.41100663462191]
NLVR2およびDROPデータセット上でNMNの中間出力を評価する。
中間出力は期待出力と異なり,ネットワーク構造がモデル動作の忠実な説明を提供していないことを示す。
論文 参考訳(メタデータ) (2020-05-02T06:50:35Z) - On Infinite-Width Hypernetworks [101.03630454105621]
我々は、ハイパーネットワークが、下降中のグローバルなミニマを保証していないことを示す。
我々は,これらのアーキテクチャの機能的先行を,対応するGPカーネルとNTKカーネルを導出することによって同定する。
この研究の一環として、標準完全連結ReLUネットワークの高次テイラー項の厳密な境界を導出した数学的貢献を行う。
論文 参考訳(メタデータ) (2020-03-27T00:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。