論文の概要: Hyneter: Hybrid Network Transformer for Object Detection
- arxiv url: http://arxiv.org/abs/2302.09365v1
- Date: Sat, 18 Feb 2023 15:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:53:34.381918
- Title: Hyneter: Hybrid Network Transformer for Object Detection
- Title(参考訳): Hyneter: オブジェクト検出のためのハイブリッドネットワークトランス
- Authors: Dong Chen, Duoqian Miao, Xuerong Zhao
- Abstract要約: 我々はHybrid Network Transformer(Hyneter)と呼ばれる新しいビジョントランスを提案する。
Hyneters consist of Hybrid Network Backbone (HNB) and Dual Switching Module (DS)
バランス戦略に基づいて、HNBは、畳み込み層をTransformerブロックに埋め込むことで、ローカル情報の範囲を広げる。
- 参考スコア(独自算出の注目度): 15.231195111662927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we point out that the essential differences between CNN-based
and Transformer-based detectors, which cause the worse performance of small
objects in Transformer-based methods, are the gap between local information and
global dependencies in feature extraction and propagation. To address these
differences, we propose a new vision Transformer, called Hybrid Network
Transformer (Hyneter), after pre-experiments that indicate the gap causes
CNN-based and Transformer-based methods to increase size-different objects
result unevenly. Different from the divide and conquer strategy in previous
methods, Hyneters consist of Hybrid Network Backbone (HNB) and Dual Switching
module (DS), which integrate local information and global dependencies, and
transfer them simultaneously. Based on the balance strategy, HNB extends the
range of local information by embedding convolution layers into Transformer
blocks, and DS adjusts excessive reliance on global dependencies outside the
patch.
- Abstract(参考訳): 本稿では,CNN と Transformer との違いが,Transformer の手法における小型オブジェクトの性能低下の原因となっていることを指摘し,特徴抽出と伝播における局所情報とグローバル依存関係のギャップを指摘する。
そこで,本研究では,cnnとトランスフォーマによる手法の差が不均等に増大することを示す事前実験を行った後,ハイブリッドネットワークトランスフォーマ (hyneter) と呼ばれる新しいビジョントランスフォーマを提案する。
従来の方法とは異なり、HynetersはHybrid Network Backbone(HNB)とDual Switching Module(DS)で構成されており、ローカル情報とグローバル依存関係を統合し、それらを同時に転送する。
HNBはバランス戦略に基づいて、畳み込みレイヤをTransformerブロックに埋め込むことでローカル情報の範囲を拡張し、DSはパッチ外のグローバル依存関係への過度な依存を調整する。
関連論文リスト
- CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation [60.08541107831459]
本稿では,医用画像セグメンテーションのための強力なCNNベースモデルとトランスフォーマーベースモデルを学習するための,CNN-Transformer修正協調学習フレームワークを提案する。
具体的には,学生ソフトラベルの誤り領域を適応的に選択・修正する基礎的真理を取り入れた修正ロジット・ワイド・コラボレーティブ・ラーニング(RLCL)戦略を提案する。
また,機能空間におけるCNNベースモデルとTransformerベースモデル間の効果的な知識伝達を実現するために,クラス認識型特徴量協調学習(CFCL)戦略を提案する。
論文 参考訳(メタデータ) (2024-08-25T01:27:35Z) - Image Super-resolution Reconstruction Network based on Enhanced Swin Transformer via Alternating Aggregation of Local-Global Features [6.274236785783168]
本稿では,局所的な特徴を交互に集約するSwin Transformerモジュールを提案する。
実験の結果,提案したネットワークは,他の最先端の超解像ネットワークよりも優れていた。
論文 参考訳(メタデータ) (2023-12-30T14:11:08Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in
Optical Remote Sensing Images [7.764449276074902]
MCTNetと呼ばれるマルチスケールCNN変換器構造に基づくハイブリッドネットワークを提案する。
MCTNetは既存の最先端CD法よりも優れた検出性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-14T07:54:28Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation [18.755217252996754]
我々はDual Swin Transformer U-Net(DS-TransUNet)と呼ばれる新しいディープ・メディカル・イメージ・セグメンテーション・フレームワークを提案する。
従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetは、まずSwin Transformerをベースとしたデュアルスケールエンコーダワークを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。
DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。
論文 参考訳(メタデータ) (2021-06-12T08:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。