論文の概要: Visual Concept Reasoning Networks
- arxiv url: http://arxiv.org/abs/2008.11783v1
- Date: Wed, 26 Aug 2020 20:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 20:44:14.265585
- Title: Visual Concept Reasoning Networks
- Title(参考訳): 視覚概念推論ネットワーク
- Authors: Taesup Kim, Sungwoong Kim, Yoshua Bengio
- Abstract要約: 分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
- 参考スコア(独自算出の注目度): 93.99840807973546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A split-transform-merge strategy has been broadly used as an architectural
constraint in convolutional neural networks for visual recognition tasks. It
approximates sparsely connected networks by explicitly defining multiple
branches to simultaneously learn representations with different visual concepts
or properties. Dependencies or interactions between these representations are
typically defined by dense and local operations, however, without any
adaptiveness or high-level reasoning. In this work, we propose to exploit this
strategy and combine it with our Visual Concept Reasoning Networks (VCRNet) to
enable reasoning between high-level visual concepts. We associate each branch
with a visual concept and derive a compact concept state by selecting a few
local descriptors through an attention module. These concept states are then
updated by graph-based interaction and used to adaptively modulate the local
descriptors. We describe our proposed model by
split-transform-attend-interact-modulate-merge stages, which are implemented by
opting for a highly modularized architecture. Extensive experiments on visual
recognition tasks such as image classification, semantic segmentation, object
detection, scene recognition, and action recognition show that our proposed
model, VCRNet, consistently improves the performance by increasing the number
of parameters by less than 1%.
- Abstract(参考訳): 分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
複数の分岐を明示的に定義することで、疎結合ネットワークを近似し、異なる視覚概念や特性を持つ表現を同時に学習する。
しかし、これらの表現間の依存や相互作用は一般に密接かつ局所的な操作によって定義される。
本稿では,この戦略を活用し,視覚概念推論ネットワーク(vcrnet)と組み合わせることで,高レベルの視覚概念間の推論を可能にすることを提案する。
我々は各ブランチを視覚概念に関連付け,アテンションモジュールを通していくつかのローカル記述子を選択することで,コンパクトな概念状態を生成する。
これらの概念状態はグラフベースの相互作用によって更新され、局所ディスクリプタを適応的に変調するために使用される。
本稿では,高度にモジュール化されたアーキテクチャを選択することで実装した分割変換-attend-interact-modulate-mergeによるモデルについて述べる。
画像分類,セマンティックセグメンテーション,オブジェクト検出,シーン認識,行動認識などの視覚的タスクに関する大規模な実験により,提案するモデルであるVCRNetは,パラメータ数を1%未満に増やすことで,一貫した性能向上を図っている。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Concept-Centric Transformers: Enhancing Model Interpretability through
Object-Centric Concept Learning within a Shared Global Workspace [1.6574413179773757]
概念中心変換器は、解釈可能性のための共有グローバルワークスペースの単純かつ効果的な構成である。
本モデルでは,すべての問題に対して,すべてのベースラインの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-25T06:37:39Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - ViGAT: Bottom-up event recognition and explanation in video using
factorized graph attention network [8.395400675921515]
ViGATは、オブジェクトとフレームの特徴を導出するための純粋アテンションボトムアップアプローチである。
ビデオにおけるイベント認識と説明のタスクのために,これらの特徴を処理するためのヘッドネットワークが提案されている。
提案手法が3つの大規模公開ビデオデータセットに対して最先端の結果を提供することを示す総合的な評価研究を行った。
論文 参考訳(メタデータ) (2022-07-20T14:12:05Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。