論文の概要: CATs++: Boosting Cost Aggregation with Convolutions and Transformers
- arxiv url: http://arxiv.org/abs/2202.06817v1
- Date: Mon, 14 Feb 2022 15:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 20:16:43.076447
- Title: CATs++: Boosting Cost Aggregation with Convolutions and Transformers
- Title(参考訳): CATs++: 畳み込みとトランスフォーマーによるコスト集約を促進する
- Authors: Seokju Cho, Sunghwan Hong, Seungryong Kim
- Abstract要約: 本稿では,変換器を用いたコストアグリゲーション(CAT)を導入し,初期相関マップ間のグローバルコンセンサスを探索する。
また、標準変圧器の使用による計算コストの増大など、CATが直面する可能性のあるいくつかの制約を緩和するため、CATs++を提案する。
提案手法は従来の最先端手法を大きなマージンで上回り、全てのベンチマークに対して新しい最先端手法を設定できる。
- 参考スコア(独自算出の注目度): 31.22435282922934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cost aggregation is a highly important process in image matching tasks, which
aims to disambiguate the noisy matching scores. Existing methods generally
tackle this by hand-crafted or CNN-based methods, which either lack robustness
to severe deformations or inherit the limitation of CNNs that fail to
discriminate incorrect matches due to limited receptive fields and
inadaptability. In this paper, we introduce Cost Aggregation with Transformers
(CATs) to tackle this by exploring global consensus among initial correlation
map with the help of some architectural designs that allow us to fully enjoy
global receptive fields of self-attention mechanism. Also, to alleviate some of
the limitations that CATs may face, i.e., high computational costs induced by
the use of a standard transformer that its complexity grows with the size of
spatial and feature dimensions, which restrict its applicability only at
limited resolution and result in rather limited performance, we propose CATs++,
an extension of CATs. Our proposed methods outperform the previous
state-of-the-art methods by large margins, setting a new state-of-the-art for
all the benchmarks, including PF-WILLOW, PF-PASCAL, and SPair-71k. We further
provide extensive ablation studies and analyses.
- Abstract(参考訳): コスト集約は画像マッチングタスクにおいて非常に重要なプロセスであり、ノイズマッチングスコアを曖昧にすることを目的としている。
既存の手法では、厳格な変形に対する頑健さを欠いた手作りまたはcnnベースの手法でこれに取り組むか、あるいは不適切なフィールドと不適応性のために不正確な一致を判別できないcnnの制限を継承する。
本稿では, トランスフォーマーを用いたコストアグリゲーション(CAT)を導入し, 自己認識機構のグローバルな受容分野を十分に享受するアーキテクチャ設計の助けを借りて, 初期相関マップ間のグローバルコンセンサスを探究する。
また、CATが直面する可能性のあるいくつかの制限を緩和するため、CATの拡張であるCATs++を提案する。
提案手法は,PF-WILLOW,PF-PASCAL,SPair-71kを含むすべてのベンチマークに対して,従来の最先端手法よりも高い性能を示す。
我々はさらに広範なアブレーション研究と分析を提供する。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - On the Power of Convolution Augmented Transformer [30.46405043231576]
本稿では,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討する。
Catは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。
コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
論文 参考訳(メタデータ) (2024-07-08T04:08:35Z) - CAT: Contrastive Adapter Training for Personalized Image Generation [4.093428697109545]
コントラスト適応訓練(Contrastive Adapter Training, CAT)を提案し, CAT損失を応用してアダプタトレーニングを強化する。
提案手法は,モデルがアダプタを開始する際に,ベースモデルの本来の知識の保存を容易にする。
論文 参考訳(メタデータ) (2024-04-11T08:36:13Z) - Quantified Task Misalignment to Inform PEFT: An Exploration of Domain
Generalization and Catastrophic Forgetting in CLIP [7.550566004119157]
CLIPモデルにおけるタスクの難易度とパラメータ効率の単純な微調整手法の性能の関係を解析する。
注意重みのサブセットのみを訓練する手法は、A-CLIPと呼ばれ、領域一般化と破滅的忘れのバランスをとる。
論文 参考訳(メタデータ) (2024-02-14T23:01:03Z) - ALF: Adaptive Label Finetuning for Scene Graph Generation [116.59868289196157]
画像中の被写体と物体の関係を予測するためのシーングラフ生成の試み
関係の長期分布は、しばしば粗いラベルの偏りの予測につながり、SGGにおいて大きなハードルとなる。
我々はSGGに1段階のデータ転送パイプラインを導入し、ALF(Adaptive Label Finetuning)と呼ばれ、追加のトレーニングセッションを不要にする。
ALFは一般的なSGG法であるMotifに比べてmR@100が16%改善され、最先端のIETransに比べて計算コストは6%増加した。
論文 参考訳(メタデータ) (2023-12-29T01:37:27Z) - PIPE : Parallelized Inference Through Post-Training Quantization
Ensembling of Residual Expansions [23.1120983784623]
PIPEは、残差誤差展開とグループ間隔とアンサンブル近似を利用して、より良い並列化を実現する量子化法である。
すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー、ビット幅)において、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-27T13:29:34Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。