論文の概要: Volumetric Transformer Networks
- arxiv url: http://arxiv.org/abs/2007.09433v1
- Date: Sat, 18 Jul 2020 14:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 05:41:15.808737
- Title: Volumetric Transformer Networks
- Title(参考訳): 容積変圧器ネットワーク
- Authors: Seungryong Kim, Sabine S\"usstrunk, Mathieu Salzmann
- Abstract要約: 学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 88.85542905676712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing techniques to encode spatial invariance within deep convolutional
neural networks (CNNs) apply the same warping field to all the feature
channels. This does not account for the fact that the individual feature
channels can represent different semantic parts, which can undergo different
spatial transformations w.r.t. a canonical configuration. To overcome this
limitation, we introduce a learnable module, the volumetric transformer network
(VTN), that predicts channel-wise warping fields so as to reconfigure
intermediate CNN features spatially and channel-wisely. We design our VTN as an
encoder-decoder network, with modules dedicated to letting the information flow
across the feature channels, to account for the dependencies between the
semantic parts. We further propose a loss function defined between the warped
features of pairs of instances, which improves the localization ability of VTN.
Our experiments show that VTN consistently boosts the features' representation
power and consequently the networks' accuracy on fine-grained image recognition
and instance-level image retrieval.
- Abstract(参考訳): ディープ畳み込みニューラルネットワーク(CNN)内の空間不変性を符号化する既存の技術は、全ての特徴チャネルに同じワープフィールドを適用する。
これは、個々の特徴チャネルが異なる意味的部分を表現することができ、異なる空間変換を行うことができるという事実を説明できない。
この制限を克服するために、中間cnnの特徴を空間的およびチャネル的に再構成するために、チャネル毎の歪場を予測する学習可能なモジュール、ボリュームトランスフォーマネットワーク(vtn)を導入する。
我々は,VTNをエンコーダ・デコーダネットワークとして設計し,機能チャネルをまたいで情報の流れを制御し,セマンティック部分間の依存関係を考慮に入れた。
さらに,vtnのローカライズ能力を向上させるために,インスタンス対の反り特徴間に定義された損失関数を提案する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - TBSN: Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師型イメージデノベーション(SSID)において一般的なネットワークアーキテクチャである。
本稿では, ブラインドスポット要求を満たす変圧器演算子の解析と再設計により, 変圧器ベースブラインドスポットネットワーク(TBSN)を提案する。
空間的自己注意のために、注意行列に精巧なマスクを適用して受容場を制限し、拡張された畳み込みを模倣する。
チャネル自己アテンションについては,マルチスケールアーキテクチャの深層部において,チャネル数が空間的サイズよりも大きい場合,盲点情報を漏洩する可能性がある。
論文 参考訳(メタデータ) (2024-04-11T15:39:10Z) - FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer [29.95553680263075]
本稿では,複数の受容場と異なる特徴を適応的に整合する検出不要な手法であるFMRTを提案する。
FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-10-20T15:54:18Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Unsupervised domain adaptation semantic segmentation of high-resolution
remote sensing imagery with invariant domain-level context memory [10.210120085157161]
本研究では,HRS画像のセマンティックセマンティックセマンティックセマンティクスのための,教師なし領域適応セマンティクスネットワーク(MemoryAdaptNet)を提案する。
MemoryAdaptNetは、ソースドメインとターゲットドメイン間のドメイン分布の不一致をブリッジするために、出力空間逆学習スキームを構築する。
3つのクロスドメインタスクによる実験は、提案したMemoryAdaptNetが最先端の手法よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2022-08-16T12:35:57Z) - MACCIF-TDNN: Multi aspect aggregation of channel and context
interdependence features in TDNN-based speaker verification [5.28889161958623]
時間遅延ニューラルネットワーク(TDNN)に基づくマルチアスペクトからチャネルとコンテキストの相互依存性を集約する新しいネットワークアーキテクチャを提案する。
提案したMACCIF-TDNNアーキテクチャは、VoxCeleb1テストセット上で最先端のTDNNベースのシステムよりも優れている。
論文 参考訳(メタデータ) (2021-07-07T09:43:42Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - Rotation-Invariant Gait Identification with Quaternion Convolutional
Neural Networks [7.638280076041963]
本稿では,ネットワークアーキテクチャであるQuaternion CNNを紹介する。
我々は,このネットワークが,マルチユーザ回転不変歩行分類設定において,従来のCNNよりも著しく優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-08-04T23:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。