論文の概要: Exploring the Synergies of Hybrid CNNs and ViTs Architectures for
Computer Vision: A survey
- arxiv url: http://arxiv.org/abs/2402.02941v1
- Date: Mon, 5 Feb 2024 12:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:20:55.343732
- Title: Exploring the Synergies of Hybrid CNNs and ViTs Architectures for
Computer Vision: A survey
- Title(参考訳): コンピュータビジョンのためのハイブリッドCNNとViTsアーキテクチャのシナジーを探る
- Authors: Haruna Yunusa, Shiyin Qin, Abdulrahman Hamman Adama Chukkol,
Abdulganiyu Abdu Yusuf, Isah Bello, Adamu Lawan
- Abstract要約: Convolutional Neural Network (CNN) と Vision Transformers (ViT) アーキテクチャのハイブリッドが画期的なアプローチとして登場した。
この総合的なレビューは、最先端のハイブリッドCNN-ViTアーキテクチャに関する文献を徹底的に検証する。
- 参考スコア(独自算出の注目度): 0.9087641068861047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hybrid of Convolutional Neural Network (CNN) and Vision Transformers
(ViT) architectures has emerged as a groundbreaking approach, pushing the
boundaries of computer vision (CV). This comprehensive review provides a
thorough examination of the literature on state-of-the-art hybrid CNN-ViT
architectures, exploring the synergies between these two approaches. The main
content of this survey includes: (1) a background on the vanilla CNN and ViT,
(2) systematic review of various taxonomic hybrid designs to explore the
synergy achieved through merging CNNs and ViTs models, (3) comparative analysis
and application task-specific synergy between different hybrid architectures,
(4) challenges and future directions for hybrid models, (5) lastly, the survey
concludes with a summary of key findings and recommendations. Through this
exploration of hybrid CV architectures, the survey aims to serve as a guiding
resource, fostering a deeper understanding of the intricate dynamics between
CNNs and ViTs and their collective impact on shaping the future of CV
architectures.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)アーキテクチャのハイブリッドは画期的なアプローチとして登場し、コンピュータビジョン(CV)の境界を押し進めている。
この総合的なレビューは、最先端のハイブリッドCNN-ViTアーキテクチャに関する文献を徹底的に調べ、これらの2つのアプローチの相乗効果を探求する。
本調査の主な内容は,(1)バニラCNNとViTの背景,(2)CNNとViTsモデルの統合による相乗効果を探求する様々な分類学的ハイブリッドデザインの体系的レビュー,(3)異なるハイブリッドアーキテクチャ間の比較分析とアプリケーションタスク固有の相乗効果,(4)ハイブリッドモデルの課題と今後の方向性,(5) 最後に,重要な発見と推奨事項をまとめて結論づける。
このようなハイブリッドcvアーキテクチャの調査を通じて、この調査は、cnnとvitsの複雑なダイナミクスとcvアーキテクチャの将来を形成する上での集団的影響をより深く理解する上で、ガイドとなることを目標としている。
関連論文リスト
- Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - Perspectives on AI Architectures and Co-design for Earth System
Predictability [3.844947514183043]
このAI4ESPワークショップシリーズでは、合計17のテクニカルセッションが開催された。
本稿では,AIアーキテクチャと共同設計セッションと関連する成果について論じる。
論文 参考訳(メタデータ) (2023-04-07T17:36:24Z) - A Unified and Biologically-Plausible Relational Graph Representation of
Vision Transformers [11.857392812189872]
視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。
本稿では,ViTモデルの統一的,生物学的に証明可能な関係グラフ表現を提案する。
我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2022-05-20T05:53:23Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - Recurrent Vision Transformer for Solving Visual Reasoning Problems [13.658244210412352]
畳み込みニューラルネットワーク(CNN)のためのRecurrent Vision Transformer(RViT)モデルを導入する。
このネットワークは、リカレント接続の影響と推論タスクにおける空間的注意の影響により、同一の視覚的推論問題に対する競合的な結果が得られる。
包括的アブレーション研究により、ハイブリッドCNN + Transformerアーキテクチャの重要性が確認された。
論文 参考訳(メタデータ) (2021-11-29T15:01:09Z) - Triple-level Model Inferred Collaborative Network Architecture for Video
Deraining [43.06607185181434]
我々は,協調最適化と自動探索機構を用いてネットワークアーキテクチャを推定するモデル誘導三段階最適化フレームワークを開発した。
我々のモデルは、最先端の作業よりも忠実度と時間的一貫性が著しく向上したことを示している。
論文 参考訳(メタデータ) (2021-11-08T13:09:00Z) - Visual Relationship Forecasting in Videos [56.122037294234865]
本稿では,視覚関係予測(Visual Relation Forecasting:VRF)というタスクをビデオに提示する。
Hフレームと対象オブジェクトのペアを与えられたVRFは、視覚的な証拠なしに次のTフレームに対する将来の相互作用を予測することを目的としている。
VRFタスクを評価するために,VRF-AGとVRF-VidORという2つのビデオデータセットを導入する。
論文 参考訳(メタデータ) (2021-07-02T16:43:19Z) - A spin-glass model for the loss surfaces of generative adversarial
networks [0.0]
本研究では,GAN(ジェネレーション・アドバーサリ・ネットワーク)の鍵となる設計特性を捉える新しい数学モデルを提案する。
我々のモデルは相互作用する2つのスピングラスから成り、ランダム行列理論の手法を用いてモデルの臨界点の複雑性を広範囲に理論的に解析する。
その結果、より単純なネットワークに対する事前の洞察に基づいて構築される大きなGANの損失面に関する洞察が、この設定に特有の新しい構造を明らかにします。
論文 参考訳(メタデータ) (2021-01-07T12:56:15Z) - Towards Automated Neural Interaction Discovery for Click-Through Rate
Prediction [64.03526633651218]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最も重要な機械学習タスクの1つである。
本稿では,AutoCTR と呼ばれる CTR 予測のための自動インタラクションアーキテクチャ探索フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-29T04:33:01Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。