論文の概要: Recurrent Vision Transformer for Solving Visual Reasoning Problems
- arxiv url: http://arxiv.org/abs/2111.14576v1
- Date: Mon, 29 Nov 2021 15:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:38:32.665041
- Title: Recurrent Vision Transformer for Solving Visual Reasoning Problems
- Title(参考訳): リカレントビジョン変換器による視覚推論問題の解法
- Authors: Nicola Messina, Giuseppe Amato, Fabio Carrara, Claudio Gennaro,
Fabrizio Falchi
- Abstract要約: 畳み込みニューラルネットワーク(CNN)のためのRecurrent Vision Transformer(RViT)モデルを導入する。
このネットワークは、リカレント接続の影響と推論タスクにおける空間的注意の影響により、同一の視覚的推論問題に対する競合的な結果が得られる。
包括的アブレーション研究により、ハイブリッドCNN + Transformerアーキテクチャの重要性が確認された。
- 参考スコア(独自算出の注目度): 13.658244210412352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although convolutional neural networks (CNNs) showed remarkable results in
many vision tasks, they are still strained by simple yet challenging visual
reasoning problems. Inspired by the recent success of the Transformer network
in computer vision, in this paper, we introduce the Recurrent Vision
Transformer (RViT) model. Thanks to the impact of recurrent connections and
spatial attention in reasoning tasks, this network achieves competitive results
on the same-different visual reasoning problems from the SVRT dataset. The
weight-sharing both in spatial and depth dimensions regularizes the model,
allowing it to learn using far fewer free parameters, using only 28k training
samples. A comprehensive ablation study confirms the importance of a hybrid CNN
+ Transformer architecture and the role of the feedback connections, which
iteratively refine the internal representation until a stable prediction is
obtained. In the end, this study can lay the basis for a deeper understanding
of the role of attention and recurrent connections for solving visual abstract
reasoning tasks.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は多くの視覚タスクで顕著な結果を示したが、単純で挑戦的な視覚推論問題によってはまだ緊張している。
本稿では,最近のコンピュータビジョンにおけるトランスフォーマネットワークの成功に触発されて,recurrent vision transformer (rvit)モデルを提案する。
再帰接続の影響と推論タスクにおける空間的注意の影響により、このネットワークはsvrtデータセットと異なる視覚的推論問題に対して競合的な結果が得られる。
空間次元と深さ次元の両方の重量共有はモデルを正規化し、28kのトレーニングサンプルを使用して、はるかに少ない自由パラメータで学習することができる。
包括的アブレーション研究により、ハイブリッドCNN+トランスフォーマーアーキテクチャの重要性とフィードバック接続の役割が確認され、安定した予測が得られるまで内部表現を反復的に洗練する。
最後に,視覚的抽象的推論タスクを解く上での注意と繰り返し接続の役割について,より深く理解するための基礎となるものと考えられる。
関連論文リスト
- Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - Convolutional Initialization for Data-Efficient Vision Transformers [38.63299194992718]
小さなデータセット上のビジョントランスフォーマーネットワークのトレーニングには課題がある。
CNNはアーキテクチャ上の帰納バイアスを利用して最先端のパフォーマンスを達成することができる。
我々のアプローチは、ランダムなインパルスフィルタがCNNの学習フィルタとほぼ同等の性能を達成できるという発見に動機づけられている。
論文 参考訳(メタデータ) (2024-01-23T06:03:16Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Deep Augmentation: Self-Supervised Learning with Transformations in Activation Space [19.495587566796278]
我々は、Deep Augmentationを導入し、DropoutまたはPCAを使用して暗黙のデータ拡張を行い、ニューラルネットワーク内のターゲット層を変換し、パフォーマンスと一般化を改善する。
我々は、NLP、コンピュータビジョン、グラフ学習におけるコントラスト学習タスクに関する広範な実験を通して、Deep Augmentationを実証する。
論文 参考訳(メタデータ) (2023-03-25T19:03:57Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - On the role of feedback in visual processing: a predictive coding
perspective [0.6193838300896449]
我々は、フィードフォワード視覚処理のモデルとして深層畳み込みネットワーク(CNN)を検討し、予測符号化(PC)ダイナミクスを実装した。
ノイズレベルが増加するにつれて、ネットワークはますますトップダウンの予測に依存している。
さらに,PCダイナミクスを実装するネットワークの精度は,等価なフォワードネットワークに比べて時間経過とともに著しく向上する。
論文 参考訳(メタデータ) (2021-06-08T10:07:23Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Principle of Least Action for the Training of Neural Networks [10.342408668490975]
ネットワークの輸送マップに低運動エネルギー偏差バイアスが存在することを示し、このバイアスと一般化性能を関連づける。
本稿では,与えられたタスクの複雑さに自動的に適応する新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-17T15:37:34Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。