論文の概要: ParaFormer: Parallel Attention Transformer for Efficient Feature
Matching
- arxiv url: http://arxiv.org/abs/2303.00941v1
- Date: Thu, 2 Mar 2023 03:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:09:03.665072
- Title: ParaFormer: Parallel Attention Transformer for Efficient Feature
Matching
- Title(参考訳): paraformer: 効率的な特徴マッチングのための並列注意トランス
- Authors: Xiaoyong Lu, Yaping Yan, Bin Kang, Songlin Du
- Abstract要約: 本稿ではParaFormerという新しい並列アテンションモデルを提案する。
振幅と位相という概念を通じて特徴とキーポイントの位置を融合させ、平行して自己と横断性を統合する。
ホモグラフィー推定、ポーズ推定、画像マッチングなど様々な応用実験により、ParaFormerが最先端の性能を達成することを示す。
効率のよいParaFormer-Uは、既存のアテンションベースモデルの50%未満のFLOPで同等のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 8.552303361149612
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Heavy computation is a bottleneck limiting deep-learningbased feature
matching algorithms to be applied in many realtime applications. However,
existing lightweight networks optimized for Euclidean data cannot address
classical feature matching tasks, since sparse keypoint based descriptors are
expected to be matched. This paper tackles this problem and proposes two
concepts: 1) a novel parallel attention model entitled ParaFormer and 2) a
graph based U-Net architecture with attentional pooling. First, ParaFormer
fuses features and keypoint positions through the concept of amplitude and
phase, and integrates self- and cross-attention in a parallel manner which
achieves a win-win performance in terms of accuracy and efficiency. Second,
with U-Net architecture and proposed attentional pooling, the ParaFormer-U
variant significantly reduces computational complexity, and minimize
performance loss caused by downsampling. Sufficient experiments on various
applications, including homography estimation, pose estimation, and image
matching, demonstrate that ParaFormer achieves state-of-the-art performance
while maintaining high efficiency. The efficient ParaFormer-U variant achieves
comparable performance with less than 50% FLOPs of the existing attention-based
models.
- Abstract(参考訳): 重い計算は、多くのリアルタイムアプリケーションに適用できるディープラーニングベースの機能マッチングアルゴリズムを制限するボトルネックである。
しかし、euclideanデータに最適化された既存の軽量ネットワークは、スパースキーポイントベースのディスクリプタがマッチすることが期待されているため、古典的な特徴マッチングタスクには対処できない。
本稿では,この問題に取り組み,2つの概念を提案する。
1)paraformerとparaformerという新しい並列注意モデル
2)注目プーリングを備えたグラフベースのU-Netアーキテクチャ。
第一に、ParaFormerは振幅と位相の概念を通じて特徴とキーポイントの位置を融合させ、自己と交差した注意を並列に統合し、精度と効率の点で勝訴性能を達成する。
第二に、U-Netアーキテクチャと注目プーリングの提案により、ParaFormer-Uは計算複雑性を著しく低減し、ダウンサンプリングによる性能損失を最小化する。
ホモグラフィ推定、ポーズ推定、画像マッチングを含む様々な応用に関する十分な実験により、paraformerは高い効率を維持しながら最先端のパフォーマンスを達成できることが示されている。
効率のよいParaFormer-Uは、既存のアテンションベースモデルの50%未満のFLOPで同等のパフォーマンスを達成する。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - A Multi-Resolution Framework for U-Nets with Applications to
Hierarchical VAEs [29.995904718691204]
無限次元関数空間上のモデルの有限次元切り込みとしてU-Netを識別する多分解能フレームワークを定式化する。
次に、我々のフレームワークを活用して、U-Netアーキテクチャを持つ最先端階層型VAE(HVAE)を特定します。
論文 参考訳(メタデータ) (2023-01-19T17:33:48Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - EQ-Net: A Unified Deep Learning Framework for Log-Likelihood Ratio
Estimation and Quantization [25.484585922608193]
EQ-Netは,データ駆動手法を用いてログ類似度(LLR)推定と量子化の両課題を解決する,最初の包括的フレームワークである。
広範な実験評価を行い,両タスクにおいて単一アーキテクチャが最先端の成果を達成できることを実証する。
論文 参考訳(メタデータ) (2020-12-23T18:11:30Z) - EfficientPose: Scalable single-person pose estimation [3.325625311163864]
一人称ポーズ推定のための新しい畳み込みニューラルネットワークアーキテクチャであるEfficientPoseを提案する。
我々のトップパフォーマンスモデルは、低複雑さのConvNetを用いて、シングルパーソンMPIIにおける最先端の精度を実現する。
複雑さと効率が低いため、EfficientPoseはメモリフットプリントと計算コストを制限し、エッジデバイス上の現実世界のアプリケーションを可能にする。
論文 参考訳(メタデータ) (2020-04-25T16:50:46Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z) - Good Feature Matching: Towards Accurate, Robust VO/VSLAM with Low
Latency [23.443265839365054]
最先端VO/VSLAMシステムの解析は、性能(正確性と堅牢性)と効率(レイテンシ)のバランスのギャップを露呈する
本稿では,特徴量に基づくVSLAMの適用により,性能と効率のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2020-01-03T03:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。