Fugu-MT 論文翻訳(概要): Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching

論文の概要: Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching

arxiv url: http://arxiv.org/abs/2405.13874v1
Date: Wed, 22 May 2024 17:57:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 20:53:06.717854
Title: Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching
Title（参考訳）: Affine-based deformable Attention and Selective Fusion for Semi-dense Matching
Authors: Hongkai Chen, Zixin Luo, Yurun Tian, Xuyang Bai, Ziyu Wang, Lei Zhou, Mingmin Zhen, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan,
Abstract要約: モデル断面変形に対するアフィン系局所的注意を導入する。また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
参考スコア（独自算出の注目度）: 30.272791354494373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Identifying robust and accurate correspondences across images is a fundamental problem in computer vision that enables various downstream tasks. Recent semi-dense matching methods emphasize the effectiveness of fusing relevant cross-view information through Transformer. In this paper, we propose several improvements upon this paradigm. Firstly, we introduce affine-based local attention to model cross-view deformations. Secondly, we present selective fusion to merge local and global messages from cross attention. Apart from network structure, we also identify the importance of enforcing spatial smoothness in loss design, which has been omitted by previous works. Based on these augmentations, our network demonstrate strong matching capacity under different settings. The full version of our network achieves state-of-the-art performance among semi-dense matching methods at a similar cost to LoFTR, while the slim version reaches LoFTR baseline's performance with only 15% computation cost and 18% parameters.
Abstract（参考訳）: 画像間の堅牢で正確な対応を識別することは、様々な下流タスクを可能にするコンピュータビジョンの基本的な問題である。近年のセミデンスマッチング手法は,トランスフォーマーを通じて関連情報を融合することの有効性を強調している。本稿では,このパラダイムに関するいくつかの改良を提案する。まず,アフィン系局所的注意をモデル断面変形に導入する。第2に、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合を提案する。ネットワーク構造とは別に,従来の研究で省略された損失設計における空間的滑らかさの強化の重要性も確認した。これらの拡張に基づいて、ネットワークは異なる設定下での強いマッチング能力を示す。ネットワークの全バージョンは,LoFTRと同じようなコストで,半ダンスマッチング手法の最先端性能を実現し,スリムバージョンは15%の計算コストと18%のパラメータでLoFTRのベースラインに到達した。

関連論文リスト

Cross Spatial Temporal Fusion Attention for Remote Sensing Object Detection via Image Feature Matching [15.57849268814515]
参照画像とクエリ画像の両方で独立に検出されたスケール不変キーポイントを統合することで特徴表現を強化する機構を提案する。まず、複数の画像領域からの情報を同時に活用する対応マップを作成し、次に、類似性マッチングプロセスを分類タスクとして再構成することで、特徴マッチングを改善する。改良された特徴マッチングの実用性を示すために,HRSC2016およびDOTAベンチマークデータセットを用いてオブジェクト検出タスクのCSTFを評価する。
論文参考訳（メタデータ） (2025-07-25T09:52:06Z)
Progressive Focused Transformer for Single Image Super-Resolution [21.301520456058544]
本稿では、PFA(Progressive Focused Attention)を通してネットワーク内のすべての孤立した注意マップをリンクして、最も重要なトークンに注意を向ける、新規で効果的なProgressive Focused Transformer(PFT)を提案する。 PFAは、ネットワークがより重要な類似した特徴をキャプチャできるだけでなく、類似性を計算する前に無関係な特徴をフィルタリングすることで、ネットワーク全体の計算コストを大幅に削減する。
論文参考訳（メタデータ） (2025-03-26T09:02:37Z)
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳（メタデータ） (2025-03-11T03:58:17Z)
Rethinking Normalization Strategies and Convolutional Kernels for Multimodal Image Fusion [25.140475569677758]
マルチモーダル画像融合は、様々なモーダルからの情報を総合的な画像を得るために統合することを目的としている。既存の手法では、自然画像の融合を優先し、情報補完とネットワークトレーニング戦略に重点を置く傾向にある。本稿では,融合目標,統計特性,およびデータ分布に関する2つの課題の有意な差異を論じる。
論文参考訳（メタデータ） (2024-11-15T08:36:24Z)
Towards Meta-Pruning via Optimal Transport [64.6060250923073]
本稿では, フラニングパラダイムに挑戦する「イントラフュージョン」という新しいアプローチを提案する。モデル融合と最適輸送の概念を利用して、より効果的なスパースモデル表現に到達する。 CIFAR-10, CIFAR-100, ImageNetなどの一般的なデータセット上で, 各種ネットワークのベンチマークを行った。
論文参考訳（メタデータ） (2024-02-12T17:50:56Z)
FuseFormer: A Transformer for Visual and Thermal Image Fusion [3.6064695344878093]
本稿では,従来の評価指標を損失関数として用いた場合の限界を緩和する画像融合問題に対する新しい手法を提案する。提案手法は,局所的およびグローバルなコンテキスト情報に順応的に対処するトランスフォーマーベースのマルチスケール融合戦略を統合する。提案手法は,新たな損失関数の定義とともに,他の競合融合アルゴリズムよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-02-01T19:40:39Z)
Learning Image Deraining Transformer Network with Dynamic Dual Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文参考訳（メタデータ） (2023-08-15T13:59:47Z)
T-Fusion Net: A Novel Deep Neural Network Augmented with Multiple Localizations based Spatial Attention Mechanisms for Covid-19 Detection [0.7614628596146599]
本研究は、複数の局所化に基づく空間的注意を増大させる新しいディープニューラルネットワーク(T-Fusion Net)を提案する。さらに、同ネットワークの同種アンサンブルを用いて、画像分類精度を高める。提案したT-フュージョンネットと同質アンサンブルモデルは,他の最先端手法と比較して,優れた性能を示す。
論文参考訳（メタデータ） (2023-07-31T18:18:01Z)
Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文参考訳（メタデータ） (2023-07-06T13:19:06Z)
Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文参考訳（メタデータ） (2022-07-21T12:50:54Z)
Cross-receptive Focused Inference Network for Lightweight Image Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文参考訳（メタデータ） (2022-07-06T16:32:29Z)
Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。 ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文参考訳（メタデータ） (2022-04-26T10:00:28Z)
Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文参考訳（メタデータ） (2021-12-27T14:05:41Z)
FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文参考訳（メタデータ） (2020-07-16T17:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。