論文の概要: Exploring the Synergies of Hybrid CNNs and ViTs Architectures for
Computer Vision: A survey
- arxiv url: http://arxiv.org/abs/2402.02941v1
- Date: Mon, 5 Feb 2024 12:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:20:55.343732
- Title: Exploring the Synergies of Hybrid CNNs and ViTs Architectures for
Computer Vision: A survey
- Title(参考訳): コンピュータビジョンのためのハイブリッドCNNとViTsアーキテクチャのシナジーを探る
- Authors: Haruna Yunusa, Shiyin Qin, Abdulrahman Hamman Adama Chukkol,
Abdulganiyu Abdu Yusuf, Isah Bello, Adamu Lawan
- Abstract要約: Convolutional Neural Network (CNN) と Vision Transformers (ViT) アーキテクチャのハイブリッドが画期的なアプローチとして登場した。
この総合的なレビューは、最先端のハイブリッドCNN-ViTアーキテクチャに関する文献を徹底的に検証する。
- 参考スコア(独自算出の注目度): 0.9087641068861047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hybrid of Convolutional Neural Network (CNN) and Vision Transformers
(ViT) architectures has emerged as a groundbreaking approach, pushing the
boundaries of computer vision (CV). This comprehensive review provides a
thorough examination of the literature on state-of-the-art hybrid CNN-ViT
architectures, exploring the synergies between these two approaches. The main
content of this survey includes: (1) a background on the vanilla CNN and ViT,
(2) systematic review of various taxonomic hybrid designs to explore the
synergy achieved through merging CNNs and ViTs models, (3) comparative analysis
and application task-specific synergy between different hybrid architectures,
(4) challenges and future directions for hybrid models, (5) lastly, the survey
concludes with a summary of key findings and recommendations. Through this
exploration of hybrid CV architectures, the survey aims to serve as a guiding
resource, fostering a deeper understanding of the intricate dynamics between
CNNs and ViTs and their collective impact on shaping the future of CV
architectures.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)アーキテクチャのハイブリッドは画期的なアプローチとして登場し、コンピュータビジョン(CV)の境界を押し進めている。
この総合的なレビューは、最先端のハイブリッドCNN-ViTアーキテクチャに関する文献を徹底的に調べ、これらの2つのアプローチの相乗効果を探求する。
本調査の主な内容は,(1)バニラCNNとViTの背景,(2)CNNとViTsモデルの統合による相乗効果を探求する様々な分類学的ハイブリッドデザインの体系的レビュー,(3)異なるハイブリッドアーキテクチャ間の比較分析とアプリケーションタスク固有の相乗効果,(4)ハイブリッドモデルの課題と今後の方向性,(5) 最後に,重要な発見と推奨事項をまとめて結論づける。
このようなハイブリッドcvアーキテクチャの調査を通じて、この調査は、cnnとvitsの複雑なダイナミクスとcvアーキテクチャの将来を形成する上での集団的影響をより深く理解する上で、ガイドとなることを目標としている。
関連論文リスト
- Investigation of Hierarchical Spectral Vision Transformer Architecture for Classification of Hyperspectral Imagery [7.839253919389809]
視覚変換器の理論的正当性は、HSI分類においてCNNアーキテクチャよりも優れている。
HSI分類に適した統合階層型スペクトルビジョン変換器アーキテクチャについて検討した。
視覚変換器の独特な強さは、その網羅的なアーキテクチャに起因すると結論付けている。
論文 参考訳(メタデータ) (2024-09-14T00:53:13Z) - Graph neural network surrogate for strategic transport planning [2.175217022338634]
本稿では,戦略的輸送計画のための代理モデルとして,高度なグラフニューラルネットワーク(GNN)アーキテクチャの適用について検討する。
グラフ畳み込みネットワーク(GCN: Graph Convolution Network)を基盤とした先行研究に基づいて、より表現力のあるグラフ注意ネットワーク(GAT: Graph Attention Network)と確立されたGCNの比較分析を行った。
本稿では,グラフベースモデルにおけるオーバー・スムーシング問題に対処する新しいGAT変種(GATv3)を提案する。
論文 参考訳(メタデータ) (2024-08-14T14:18:47Z) - Towards Neural Architecture Search for Transfer Learning in 6G Networks [4.863212763542215]
本稿では,ニューラルネットワーク検索と伝達学習の現状とネットワークへの適用性について述べる。
オープンな研究課題を特定し、将来のネットワークに特有の要素を持つ3つの主要な要件に特化して方向性を設定します。
論文 参考訳(メタデータ) (2024-06-04T14:01:03Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - Perspectives on AI Architectures and Co-design for Earth System
Predictability [3.844947514183043]
このAI4ESPワークショップシリーズでは、合計17のテクニカルセッションが開催された。
本稿では,AIアーキテクチャと共同設計セッションと関連する成果について論じる。
論文 参考訳(メタデータ) (2023-04-07T17:36:24Z) - A Unified and Biologically-Plausible Relational Graph Representation of
Vision Transformers [11.857392812189872]
視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。
本稿では,ViTモデルの統一的,生物学的に証明可能な関係グラフ表現を提案する。
我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2022-05-20T05:53:23Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - Visual Relationship Forecasting in Videos [56.122037294234865]
本稿では,視覚関係予測(Visual Relation Forecasting:VRF)というタスクをビデオに提示する。
Hフレームと対象オブジェクトのペアを与えられたVRFは、視覚的な証拠なしに次のTフレームに対する将来の相互作用を予測することを目的としている。
VRFタスクを評価するために,VRF-AGとVRF-VidORという2つのビデオデータセットを導入する。
論文 参考訳(メタデータ) (2021-07-02T16:43:19Z) - Towards Automated Neural Interaction Discovery for Click-Through Rate
Prediction [64.03526633651218]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最も重要な機械学習タスクの1つである。
本稿では,AutoCTR と呼ばれる CTR 予測のための自動インタラクションアーキテクチャ探索フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-29T04:33:01Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。