論文の概要: CATs++: Boosting Cost Aggregation with Convolutions and Transformers
- arxiv url: http://arxiv.org/abs/2202.06817v1
- Date: Mon, 14 Feb 2022 15:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 20:16:43.076447
- Title: CATs++: Boosting Cost Aggregation with Convolutions and Transformers
- Title(参考訳): CATs++: 畳み込みとトランスフォーマーによるコスト集約を促進する
- Authors: Seokju Cho, Sunghwan Hong, Seungryong Kim
- Abstract要約: 本稿では,変換器を用いたコストアグリゲーション(CAT)を導入し,初期相関マップ間のグローバルコンセンサスを探索する。
また、標準変圧器の使用による計算コストの増大など、CATが直面する可能性のあるいくつかの制約を緩和するため、CATs++を提案する。
提案手法は従来の最先端手法を大きなマージンで上回り、全てのベンチマークに対して新しい最先端手法を設定できる。
- 参考スコア(独自算出の注目度): 31.22435282922934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cost aggregation is a highly important process in image matching tasks, which
aims to disambiguate the noisy matching scores. Existing methods generally
tackle this by hand-crafted or CNN-based methods, which either lack robustness
to severe deformations or inherit the limitation of CNNs that fail to
discriminate incorrect matches due to limited receptive fields and
inadaptability. In this paper, we introduce Cost Aggregation with Transformers
(CATs) to tackle this by exploring global consensus among initial correlation
map with the help of some architectural designs that allow us to fully enjoy
global receptive fields of self-attention mechanism. Also, to alleviate some of
the limitations that CATs may face, i.e., high computational costs induced by
the use of a standard transformer that its complexity grows with the size of
spatial and feature dimensions, which restrict its applicability only at
limited resolution and result in rather limited performance, we propose CATs++,
an extension of CATs. Our proposed methods outperform the previous
state-of-the-art methods by large margins, setting a new state-of-the-art for
all the benchmarks, including PF-WILLOW, PF-PASCAL, and SPair-71k. We further
provide extensive ablation studies and analyses.
- Abstract(参考訳): コスト集約は画像マッチングタスクにおいて非常に重要なプロセスであり、ノイズマッチングスコアを曖昧にすることを目的としている。
既存の手法では、厳格な変形に対する頑健さを欠いた手作りまたはcnnベースの手法でこれに取り組むか、あるいは不適切なフィールドと不適応性のために不正確な一致を判別できないcnnの制限を継承する。
本稿では, トランスフォーマーを用いたコストアグリゲーション(CAT)を導入し, 自己認識機構のグローバルな受容分野を十分に享受するアーキテクチャ設計の助けを借りて, 初期相関マップ間のグローバルコンセンサスを探究する。
また、CATが直面する可能性のあるいくつかの制限を緩和するため、CATの拡張であるCATs++を提案する。
提案手法は,PF-WILLOW,PF-PASCAL,SPair-71kを含むすべてのベンチマークに対して,従来の最先端手法よりも高い性能を示す。
我々はさらに広範なアブレーション研究と分析を提供する。
関連論文リスト
- Quantified Task Misalignment to Inform PEFT: An Exploration of Domain
Generalization and Catastrophic Forgetting in CLIP [7.550566004119157]
CLIPモデルにおけるタスクの難易度とパラメータ効率の単純な微調整手法の性能の関係を解析する。
注意重みのサブセットのみを訓練する手法は、A-CLIPと呼ばれ、領域一般化と破滅的忘れのバランスをとる。
論文 参考訳(メタデータ) (2024-02-14T23:01:03Z) - PIPE : Parallelized Inference Through Post-Training Quantization
Ensembling of Residual Expansions [23.1120983784623]
PIPEは、残差誤差展開とグループ間隔とアンサンブル近似を利用して、より良い並列化を実現する量子化法である。
すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー、ビット幅)において、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-27T13:29:34Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Communication-Efficient Federated Linear and Deep Generalized Canonical
Correlation Analysis [13.04301271535511]
本研究は, 線形GCCAと深層GCCAの双方を対象とした, コミュニケーション効率のよいフェデレーション学習フレームワークを提案する。
実験により,提案アルゴリズムは精度と収束速度をほぼ損なうことなく,通信オーバーヘッドを大幅に低減できることを示した。
論文 参考訳(メタデータ) (2021-09-25T16:43:10Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - CAT: Cross-Attention Transformer for One-Shot Object Detection [32.50786038822194]
ワンショットオブジェクト検出は、セマンティックな類似度の比較を通じて、ターゲットイメージ内のそのクラスのすべてのインスタンスを検出することを目的とする。
汎用クロスアテンション変換器(CAT)モジュールで、ワンショットオブジェクト検出における正確かつ効率的な意味的類似度比較を行う。
論文 参考訳(メタデータ) (2021-04-30T13:18:53Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。