論文の概要: FDCT: Frequency-Aware Decomposition and Cross-Modal Token-Alignment for Multi-Sensor Target Classification
- arxiv url: http://arxiv.org/abs/2503.09873v1
- Date: Wed, 12 Mar 2025 22:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:15.000016
- Title: FDCT: Frequency-Aware Decomposition and Cross-Modal Token-Alignment for Multi-Sensor Target Classification
- Title(参考訳): FDCT:マルチセンサターゲット分類のための周波数認識分解とクロスモーダルトークンアライメント
- Authors: Shoaib Meraj Sami, Md Mahedi Hasan, Nasser M. Nasrabadi, Raghuveer Rao,
- Abstract要約: 我々は、ターゲット分類のための複数の画像センサデータを分解、整列、融合する。
本稿では,センサ間の共有離散トークン(UDT)空間を提案する。
単一モダリティ分類器よりも優れた分類性能を実現する。
- 参考スコア(独自算出の注目度): 10.878168590232852
- License:
- Abstract: In automatic target recognition (ATR) systems, sensors may fail to capture discriminative, fine-grained detail features due to environmental conditions, noise created by CMOS chips, occlusion, parallaxes, and sensor misalignment. Therefore, multi-sensor image fusion is an effective choice to overcome these constraints. However, multi-modal image sensors are heterogeneous and have domain and granularity gaps. In addition, the multi-sensor images can be misaligned due to intricate background clutters, fluctuating illumination conditions, and uncontrolled sensor settings. In this paper, to overcome these issues, we decompose, align, and fuse multiple image sensor data for target classification. We extract the domain-specific and domain-invariant features from each sensor data. We propose to develop a shared unified discrete token (UDT) space between sensors to reduce the domain and granularity gaps. Additionally, we develop an alignment module to overcome the misalignment between multi-sensors and emphasize the discriminative representation of the UDT space. In the alignment module, we introduce sparsity constraints to provide a better cross-modal representation of the UDT space and robustness against various sensor settings. We achieve superior classification performance compared to single-modality classifiers and several state-of-the-art multi-modal fusion algorithms on four multi-sensor ATR datasets.
- Abstract(参考訳): 自動目標認識(ATR)システムでは、センサーは環境条件、CMOSチップによるノイズ、オクルージョン、パララックス、センサミスアライメントによる識別的、きめ細かい特徴を捉えることができない。
したがって、これらの制約を克服するためには、マルチセンサ画像融合が有効な選択である。
しかし、マルチモーダル画像センサは異質であり、領域と粒度のギャップがある。
さらに、複雑な背景クラッタ、ゆらぎのある照明条件、制御不能なセンサ設定などにより、マルチセンサイメージを誤アライメントすることができる。
本稿では,これらの問題を克服するために,対象分類のための複数の画像センサデータを分解,整列,融合する。
各センサデータからドメイン固有およびドメイン不変の特徴を抽出する。
本稿では,センサ間の共有統一離散トークン(UDT)空間を構築し,領域と粒度ギャップを低減することを提案する。
さらに,マルチセンサ間の不一致を克服し,UDT空間の識別表現を強調するアライメントモジュールを開発する。
アライメントモジュールでは、様々なセンサ設定に対して、UDT空間のより優れたクロスモーダル表現とロバスト性を提供するために、スペーサ性制約を導入する。
我々は,4つのマルチセンサATRデータセット上で,単一モダリティ分類器や複数の最先端マルチモーダル融合アルゴリズムと比較して,優れた分類性能を実現する。
関連論文リスト
- MSSIDD: A Benchmark for Multi-Sensor Denoising [55.41612200877861]
我々は,マルチセンサSIDDデータセットという新しいベンチマークを導入する。これは,認知モデルのセンサ伝達性を評価するために設計された,最初の生ドメインデータセットである。
そこで本研究では,センサに不変な特徴を認知モデルで学習することのできるセンサ一貫性トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T13:32:59Z) - Adaptive Domain Learning for Cross-domain Image Denoising [57.4030317607274]
本稿では,クロスドメイン画像認識のための適応型ドメイン学習手法を提案する。
私たちは、異なるセンサー(ソースドメイン)からの既存のデータに加えて、新しいセンサー(ターゲットドメイン)からの少量のデータを使用します。
ADLトレーニングスキームは、ターゲットドメインのモデルを微調整するのに有害なソースドメイン内のデータを自動的に削除する。
また,センサ固有の情報(センサタイプとISO)を取り入れ,画像認識のための入力データを理解するための変調モジュールも導入した。
論文 参考訳(メタデータ) (2024-11-03T08:08:26Z) - SenPa-MAE: Sensor Parameter Aware Masked Autoencoder for Multi-Satellite Self-Supervised Pretraining [1.4528189330418977]
SenPa-MAEは、観察されたマルチスペクトル信号のセンサーパラメータを画像埋め込みに符号化する。
SenPa-MAEは、非マッチングスペクトルまたは幾何学的センサー特性を持つ異なる衛星の画像で事前訓練することができる。
論文 参考訳(メタデータ) (2024-08-20T16:53:30Z) - Bridging Remote Sensors with Multisensor Geospatial Foundation Models [15.289711240431107]
msGFMは4つのキーセンサーからのデータを統合する多センサ地理空間基盤モデルである。
同一の位置情報から得られるデータに対して、我々のモデルは革新的なクロスセンサー事前学習アプローチを採用している。
msGFMは、シングルセンサーとマルチセンサーの両方の下流タスクにおいて、高い習熟度を示した。
論文 参考訳(メタデータ) (2024-04-01T17:30:56Z) - LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition [11.206532393178385]
本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
論文 参考訳(メタデータ) (2023-11-06T15:39:48Z) - Log-Likelihood Score Level Fusion for Improved Cross-Sensor Smartphone
Periocular Recognition [52.15994166413364]
我々は、複数のコンパレータを融合させて、異なるスマートフォンの画像を比較する際に、眼周囲の性能を改善する。
我々は線形ロジスティック回帰に基づく確率的融合フレームワークを使用し、融合したスコアはログライクな比率になる傾向にある。
我々のフレームワークは、同じセンサとクロスセンサーのスコア分布が整列され、共通の確率領域にマッピングされるため、異なるデバイスからの信号を処理するためのエレガントでシンプルなソリューションも提供します。
論文 参考訳(メタデータ) (2023-11-02T13:43:44Z) - Robust Domain Adaptive Object Detection with Unified Multi-Granularity Alignment [59.831917206058435]
ドメイン適応検出は、ターゲットドメイン上の検出器の一般化を改善することを目的としている。
近年のアプローチは、異なる粒度の特徴アライメントを通じて、逆学習を通じてドメイン適応を実現する。
ドメイン不変な特徴学習のための統合多重粒度アライメント(MGA)に基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-01T08:38:07Z) - HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object
Detection [0.0]
マルチモーダル2Dオブジェクト検出のためのモジュールアーキテクチャであるHRFuserを提案する。
マルチレゾリューション方式で複数のセンサーを融合させ、任意の数の入力モードにスケールする。
我々は、nuScenesとDENSEデータセットに関する実験を通じて、我々のモデルが追加のモーダルから補完的な特徴を効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-06-30T09:40:05Z) - Decoupled-and-Coupled Networks: Self-Supervised Hyperspectral Image
Super-Resolution with Subpixel Fusion [67.35540259040806]
サブピクセルレベルのHS超解像フレームワークを提案する。
名前が示すように、DC-Netはまず入力を共通(またはクロスセンサー)とセンサー固有のコンポーネントに分離する。
我々は,CSUネットの裏側に自己教師付き学習モジュールを付加し,素材の整合性を保証し,復元されたHS製品の詳細な外観を向上する。
論文 参考訳(メタデータ) (2022-05-07T23:40:36Z) - Deep Soft Procrustes for Markerless Volumetric Sensor Alignment [81.13055566952221]
本研究では、より堅牢なマルチセンサ空間アライメントを実現するために、マーカーレスデータ駆動対応推定を改善する。
我々は、幾何学的制約を終末的に典型的なセグメンテーションベースモデルに組み込み、対象のポーズ推定タスクと中間密な分類タスクをブリッジする。
実験により,マーカーベースの手法で同様の結果が得られ,マーカーレス手法よりも優れ,またキャリブレーション構造のポーズ変動にも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-03-23T10:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。