Fugu-MT 論文翻訳(概要): AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection

論文の概要: AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection

arxiv url: http://arxiv.org/abs/2505.15184v1
Date: Wed, 21 May 2025 07:02:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.033199
Title: AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection
Title（参考訳）: AuxDet: Omni-Domain Infrared Small Target Detectionのための補助メタデータ
Authors: Yangting Shi, Renjie He, Le Hui, Xiang Li, Jian Yang, Ming-Ming Cheng, Yimian Dai,
Abstract要約: シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
参考スコア（独自算出の注目度）: 58.67129770371016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Omni-domain infrared small target detection (IRSTD) poses formidable challenges, as a single model must seamlessly adapt to diverse imaging systems, varying resolutions, and multiple spectral bands simultaneously. Current approaches predominantly rely on visual-only modeling paradigms that not only struggle with complex background interference and inherently scarce target features, but also exhibit limited generalization capabilities across complex omni-scene environments where significant domain shifts and appearance variations occur. In this work, we reveal a critical oversight in existing paradigms: the neglect of readily available auxiliary metadata describing imaging parameters and acquisition conditions, such as spectral bands, sensor platforms, resolution, and observation perspectives. To address this limitation, we propose the Auxiliary Metadata Driven Infrared Small Target Detector (AuxDet), a novel multi-modal framework that fundamentally reimagines the IRSTD paradigm by incorporating textual metadata for scene-aware optimization. Through a high-dimensional fusion module based on multi-layer perceptrons (MLPs), AuxDet dynamically integrates metadata semantics with visual features, guiding adaptive representation learning for each individual sample. Additionally, we design a lightweight prior-initialized enhancement module using 1D convolutional blocks to further refine fused features and recover fine-grained target cues. Extensive experiments on the challenging WideIRSTD-Full benchmark demonstrate that AuxDet consistently outperforms state-of-the-art methods, validating the critical role of auxiliary information in improving robustness and accuracy in omni-domain IRSTD tasks. Code is available at https://github.com/GrokCV/AuxDet.
Abstract（参考訳）: Omniドメインの赤外線小ターゲット検出(IRSTD)は、単一のモデルが多様なイメージングシステム、様々な解像度、複数のスペクトル帯域にシームレスに適応する必要があるため、非常に困難な課題となる。現在のアプローチは、複雑な背景干渉に苦しむだけでなく、ドメインシフトや外見の変化が著しい複雑なオームニシーン環境全体にわたって限定的な一般化能力を示す、視覚のみのモデリングパラダイムに大きく依存している。本研究は,スペクトル帯域,センサプラットフォーム,解像度,観測視点など,画像パラメータや取得条件を記述した簡易な補助メタデータの無視という,既存のパラダイムに対する重要な視点を明らかにする。この制限に対処するために、シーン認識最適化にテキストメタデータを組み込むことでIRSTDパラダイムを根本的に再定義する新しいマルチモーダルフレームワークであるAuxDet(AuxDet)を提案する。多層パーセプトロン(MLP)に基づく高次元融合モジュールを通じて、AuxDetはメタデータセマンティクスと視覚的特徴を動的に統合し、個々のサンプルに対して適応表現学習を導く。さらに、1次元畳み込みブロックを用いた軽量な事前初期化拡張モジュールを設計し、融合した特徴をさらに洗練し、きめ細かいターゲットキューを復元する。挑戦的なWideIRSTD-Fullベンチマークに関する大規模な実験により、AuxDetは最先端の手法を一貫して上回り、OmniドメインIRSTDタスクの堅牢性と正確性を改善するための補助情報の重要性を検証した。コードはhttps://github.com/GrokCV/AuxDet.comで入手できる。

関連論文リスト

MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection [10.135137525886098]
UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-15T02:54:25Z)
CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis [75.25966323298003]
スペクトルイメージングは、医療や都市景観の理解など、様々な領域で有望な応用を提供する。スペクトルカメラのチャネル次元と捕獲波長のばらつきは、AI駆動方式の開発を妨げる。我々は、$textbfC$amera-$textbfA$gnostic $textbfR$esupervised $textbfL$のモデルである$textbfCARL$を紹介した。
論文参考訳（メタデータ） (2025-04-27T13:06:40Z)
XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration [2.7036595757881323]
XPointは、アダプティブトレーニングと、アライメントされたマルチスペクトルデータセットの微調整のための、自己教師付き、モジュール化された画像マッチングフレームワークである。 XPointはモジュラリティと自己スーパービジョンを採用し、ベース検出器のような要素の調整を可能にしている。 XPointは、機能マッチングや画像登録タスクにおいて、最先端のメソッドを一貫して上回るか、マッチする。
論文参考訳（メタデータ） (2024-11-11T23:12:08Z)
OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文参考訳（メタデータ） (2024-03-18T07:41:39Z)
DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。 4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文参考訳（メタデータ） (2024-03-01T07:03:27Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文参考訳（メタデータ） (2023-10-21T00:56:11Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。