Fugu-MT 論文翻訳(概要): Relational Representation Learning Network for Cross-Spectral Image Patch Matching

論文の概要: Relational Representation Learning Network for Cross-Spectral Image Patch Matching

arxiv url: http://arxiv.org/abs/2403.11751v1
Date: Mon, 18 Mar 2024 12:59:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 20:29:45.128716
Title: Relational Representation Learning Network for Cross-Spectral Image Patch Matching
Title（参考訳）: クロススペクトル画像マッチングのための関係表現学習ネットワーク
Authors: Chuang Yu, Yunpeng Liu, Jinmiao Zhao, Dou Quan, Zelin Shi,
Abstract要約: 軽量表現学習ネットワーク(RRL-Net)の構築具体的には、固有の個々の特徴を完全に特徴付けるオートエンコーダを構築する。さらに個々の特徴を深く掘り下げるために、軽量な多次元グローバル・ローカライズ・アテンション(MGLA)モジュールが構築されている。
参考スコア（独自算出の注目度）: 4.645173438129938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, feature relation learning has drawn widespread attention in cross-spectral image patch matching. However, existing related research focuses on extracting diverse relations between image patch features and ignores sufficient intrinsic feature representations of individual image patches. Therefore, an innovative relational representation learning idea is proposed for the first time, which simultaneously focuses on sufficiently mining the intrinsic features of individual image patches and the relations between image patch features. Based on this, we construct a lightweight Relational Representation Learning Network (RRL-Net). Specifically, we innovatively construct an autoencoder to fully characterize the individual intrinsic features, and introduce a Feature Interaction Learning (FIL) module to extract deep-level feature relations. To further fully mine individual intrinsic features, a lightweight Multi-dimensional Global-to-Local Attention (MGLA) module is constructed to enhance the global feature extraction of individual image patches and capture local dependencies within global features. By combining the MGLA module, we further explore the feature extraction network and construct an Attention-based Lightweight Feature Extraction (ALFE) network. In addition, we propose a Multi-Loss Post-Pruning (MLPP) optimization strategy, which greatly promotes network optimization while avoiding increases in parameters and inference time. Extensive experiments demonstrate that our RRL-Net achieves state-of-the-art (SOTA) performance on multiple public datasets. Our code will be made public later.
Abstract（参考訳）: 近年,クロススペクトル画像パッチマッチングにおいて特徴関係学習が注目されている。しかし、既存の研究は、画像パッチの特徴間の多様な関係の抽出に重点を置いており、個々の画像パッチの本質的な特徴表現を十分に無視している。そこで, 画像パッチの内在的特徴と画像パッチの特徴の関係を十分にマイニングすることに焦点を当てた, 革新的リレーショナル表現学習のアイデアを初めて提案する。そこで我々は,軽量リレーショナル表現学習ネットワーク(RRL-Net)を構築した。具体的には、個人固有の特徴を完全に特徴付けるオートエンコーダを革新的に構築し、深い特徴関係を抽出する機能相互作用学習(FIL)モジュールを導入する。さらに個々の固有の特徴をフルマイニングするために,各画像パッチのグローバルな特徴抽出を強化し,グローバル機能内のローカル依存関係をキャプチャする,軽量な多次元グローバル・ローカル・アテンション(MGLA)モジュールを構築した。 MGLAモジュールを組み合わせることで、機能抽出ネットワークをさらに探求し、アテンションに基づく軽量特徴抽出(ALFE)ネットワークを構築する。さらに、パラメータや推論時間の増加を回避しつつ、ネットワーク最適化を大幅に促進するマルチロス後処理(MLPP)最適化戦略を提案する。大規模な実験により、RRL-Netは複数の公開データセット上での最先端(SOTA)性能を達成することが示された。私たちのコードは後で公開されます。

関連論文リスト

Residual Prior-driven Frequency-aware Network for Image Fusion [6.90874640835234]
画像融合は、高品質な融合画像を生成するために、モダリティにまたがる相補的な情報を統合することを目的としている。本稿ではRPFNetと呼ばれる残差優先周波数対応ネットワークを提案する。
論文参考訳（メタデータ） (2025-07-09T10:48:00Z)
Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image Captioning [11.015244501780078]
本稿では,動的グラフ精錬法(SFDR)を用いた意味空間的特徴融合を提案する。提案手法は,生成した記述の質を著しく向上させる。 3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-30T14:14:41Z)
MATCNN: Infrared and Visible Image Fusion Method Based on Multi-scale CNN with Attention Transformer [21.603763071331667]
本稿では,アテンショントランスフォーマを用いたマルチスケール畳み込みニューラルネットワーク(MATCNN)に基づく,新しいクロスモーダル画像融合手法を提案する。 MATCNNは、MSFM(Multi-scale fusion Module)を用いて異なるスケールで局所的特徴を抽出し、グローバル特徴抽出モジュール(GFEM)を用いてグローバル特徴を抽出する。情報マスクを用いて画像内の関連する詳細をラベル付けし、融合画像中の可視画像における赤外線画像および背景テクスチャにおける重要な情報保存の比率を高める。
論文参考訳（メタデータ） (2025-02-04T03:09:54Z)
AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文参考訳（メタデータ） (2024-04-20T15:23:15Z)
Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。 5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-24T03:50:37Z)
PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文参考訳（メタデータ） (2023-04-14T16:27:56Z)
Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文参考訳（メタデータ） (2022-04-21T03:18:09Z)
Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文参考訳（メタデータ） (2022-04-19T14:32:41Z)
Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文参考訳（メタデータ） (2021-11-22T08:55:25Z)
Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。 2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。 6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2021-08-18T14:14:22Z)
Conformer: Local Features Coupling Global Representations for Visual Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文参考訳（メタデータ） (2021-05-09T10:00:03Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)
Multi-Granularity Reference-Aided Attentive Feature Aggregation for Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文参考訳（メタデータ） (2020-03-27T03:49:21Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。