論文の概要: Multi-Sensor Matching with HyperNetworks
- arxiv url: http://arxiv.org/abs/2601.12325v1
- Date: Sun, 18 Jan 2026 09:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.575873
- Title: Multi-Sensor Matching with HyperNetworks
- Title(参考訳): HyperNetworksによるマルチセンサマッチング
- Authors: Eli Passov, Nathan S. Netanyahu, Yosi Keller,
- Abstract要約: ハイパーネットワークを活用し、マルチモーダルパッチマッチングを改善します。
本稿では,Siamese CNNを拡張した軽量な記述型学習アーキテクチャを提案する。
また、500Kペアのクロスプラットフォーム(地上/空中)VIS-IRパッチデータセットであるGAP-VIRをリリースしています。
- 参考スコア(独自算出の注目度): 14.911092205861822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hypernetworks are models that generate or modulate the weights of another network. They provide a flexible mechanism for injecting context and task conditioning and have proven broadly useful across diverse applications without significant increases in model size. We leverage hypernetworks to improve multimodal patch matching by introducing a lightweight descriptor-learning architecture that augments a Siamese CNN with (i) hypernetwork modules that compute adaptive, per-channel scaling and shifting and (ii) conditional instance normalization that provides modality-specific adaptation (e.g., visible vs. infrared, VIS-IR) in shallow layers. This combination preserves the efficiency of descriptor-based methods during inference while increasing robustness to appearance shifts. Trained with a triplet loss and hard-negative mining, our approach achieves state-of-the-art results on VIS-NIR and other VIS-IR benchmarks and matches or surpasses prior methods on additional datasets, despite their higher inference cost. To spur progress on domain shift, we also release GAP-VIR, a cross-platform (ground/aerial) VIS-IR patch dataset with 500K pairs, enabling rigorous evaluation of cross-domain generalization and adaptation.
- Abstract(参考訳): Hypernetworksは、他のネットワークの重みを生成または変調するモデルである。
それらは、コンテキストとタスク条件を注入するための柔軟なメカニズムを提供し、モデルサイズを大幅に増加させることなく、様々なアプリケーションで広く有用であることが証明された。
我々は、Siamese CNNを拡張した軽量な記述子学習アーキテクチャを導入することで、ハイパーネットワークを活用してマルチモーダルパッチマッチングを改善する。
(i)適応型、チャネルごとのスケーリング、シフトを演算するハイパーネットワークモジュール
(II) 浅層におけるモダリティ特異的適応(例えば、可視光対赤外線、VIS-IR)を提供する条件付きインスタンス正規化。
この組み合わせは推論中の記述子ベースの手法の効率を保ちつつ、外観変化に対する堅牢性を高めている。
提案手法は三重項損失と強負のマイニングにより,VIS-NIRおよび他のVIS-IRベンチマークにおける最先端の結果を達成し,推論コストが高いにもかかわらず,追加データセットの先行手法と一致あるいはオーバーする。
ドメインシフトの進展を加速するため,500Kペアのクロスプラットフォーム(地上/空中)VIS-IRパッチデータセットであるGAP-VIRもリリースし,クロスドメインの一般化と適応の厳密な評価を可能にした。
関連論文リスト
- GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:38Z) - Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。
畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。
線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文 参考訳(メタデータ) (2024-09-26T07:24:09Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。