論文の概要: Disentangle Object and Non-object Infrared Features via Language Guidance
- arxiv url: http://arxiv.org/abs/2601.09228v1
- Date: Wed, 14 Jan 2026 06:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.30018
- Title: Disentangle Object and Non-object Infrared Features via Language Guidance
- Title(参考訳): 言語誘導による遠方形オブジェクトと非対象赤外線特徴
- Authors: Fan Liu, Ting Wu, Chuanyi Zhang, Liang Yao, Xing Ma, Yuhui Zheng,
- Abstract要約: 赤外線物体検出のための新しい視覚言語表現学習パラダイムを提案する。
リッチ・セマンティック・インフォメーションを用いた追加のテキスト・インフォメーションは、オブジェクトと非オブジェクトの特徴の絡み合いを導くために研究される。
提案手法は,Mtextsuperscript3FD (83.7% mAP),FLIR (86.1% mAP) の2つのベンチマークにおいて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 35.60538936337868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared object detection focuses on identifying and locating objects in complex environments (\eg, dark, snow, and rain) where visible imaging cameras are disabled by poor illumination. However, due to low contrast and weak edge information in infrared images, it is challenging to extract discriminative object features for robust detection. To deal with this issue, we propose a novel vision-language representation learning paradigm for infrared object detection. An additional textual supervision with rich semantic information is explored to guide the disentanglement of object and non-object features. Specifically, we propose a Semantic Feature Alignment (SFA) module to align the object features with the corresponding text features. Furthermore, we develop an Object Feature Disentanglement (OFD) module that disentangles text-aligned object features and non-object features by minimizing their correlation. Finally, the disentangled object features are entered into the detection head. In this manner, the detection performance can be remarkably enhanced via more discriminative and less noisy features. Extensive experimental results demonstrate that our approach achieves superior performance on two benchmarks: M\textsuperscript{3}FD (83.7\% mAP), FLIR (86.1\% mAP). Our code will be publicly available once the paper is accepted.
- Abstract(参考訳): 赤外線物体検出は、可視像カメラが照明の弱い複雑な環境(黄、暗、雪、雨)における物体の識別と位置決めに焦点を当てている。
しかし、赤外線画像の低コントラストと弱エッジ情報により、ロバスト検出のための識別対象の特徴を抽出することは困難である。
この問題に対処するため,赤外線物体検出のための視覚言語表現学習パラダイムを提案する。
リッチ・セマンティック・インフォメーションを用いた追加のテキスト・インフォメーションは、オブジェクトと非オブジェクトの特徴の絡み合いを導くために研究される。
具体的には、オブジェクト特徴と対応するテキスト特徴とを一致させるセマンティック・フィーチャーアライメント(SFA)モジュールを提案する。
さらに,テキスト整列したオブジェクト特徴と非オブジェクト特徴を相関を最小化してアンタングルするObject Feature Disentanglement (OFD) モジュールを開発した。
最後に、歪んだ物体特徴を検出ヘッドに入力する。
このようにして、より差別的でノイズの少ない特徴により、検出性能を著しく向上させることができる。
M\textsuperscript{3}FD (83.7\% mAP), FLIR (86.1\% mAP) の2つのベンチマークにおいて,本手法が優れた性能を示した。
論文が受理されたら、私たちのコードは公開されます。
関連論文リスト
- Dual-Granularity Semantic Prompting for Language Guidance Infrared Small Target Detection [102.1314414263959]
限られた特徴表現と厳しい背景干渉のため、赤外線小目標検出は依然として困難である。
エンドツーエンドの言語プロンプト駆動フレームワークであるDGSPNetを提案する。
提案手法は検出精度を大幅に向上し、3つのベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-24T16:58:23Z) - Learning to Borrow Features for Improved Detection of Small Objects in Single-Shot Detectors [0.0]
そこで本研究では,クラス内のより大規模で意味的にリッチなインスタンスから,小さなオブジェクト表現を識別的特徴の「バラバラ化」を可能にする新しいフレームワークを提案する。
本手法は, 複雑な視覚環境下でのロバストな物体検出に有望な方向を提供するため, ベースライン法よりも小さな物体検出精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-04-30T01:18:33Z) - SurANet: Surrounding-Aware Network for Concealed Object Detection via Highly-Efficient Interactive Contrastive Learning Strategy [55.570183323356964]
本稿では,隠蔽物体検出のための新しいSurrounding-Aware Network,すなわちSurANetを提案する。
周辺特徴の差分融合を用いて特徴写像のセマンティクスを強化し,隠蔽対象の強調を行う。
次に、周囲の特徴写像を対照的に学習することで隠蔽対象を識別するために、周囲のコントラストロスを適用した。
論文 参考訳(メタデータ) (2024-10-09T13:02:50Z) - DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection [57.08921921586688]
赤外可視物体検出は、赤外と可視画像の相補的な情報を活用することにより、堅牢な物体検出を実現することを目的としている。
相補的特徴を融合させることは困難であり、現在の手法では相補的条件下での両モードのオブジェクトを確実に見つけることはできない。
これらの問題に対処するための分離位置検出変換器を提案する。
DroneVehicleとKAISTデータセットの実験は、他の最先端の方法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-12T13:05:43Z) - Few-shot Oriented Object Detection with Memorable Contrastive Learning in Remote Sensing Images [11.217630579076237]
リモートセンシングの分野では、FSOD(Few-shot Object Detection)が注目されている。
本稿では,Few-shot Oriented Object Detection with Memorable Contrastive Learning (FOMC) という,リモートセンシングのための新しいFSOD法を提案する。
具体的には、従来の水平有界ボックスの代わりに指向的有界ボックスを用いて、任意指向の空中オブジェクトのより優れた特徴表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T08:15:18Z) - The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文 参考訳(メタデータ) (2023-11-29T10:40:52Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - Few-shot Object Detection with Self-adaptive Attention Network for
Remote Sensing Images [11.938537194408669]
本報告では, ごく一部の例で提供される新しい物体を検出するために設計された, 数発の物体検出器を提案する。
対象物検出設定に適合するため,本提案では,全画像ではなく対象物レベルの関係に焦点を合わせている。
本実験は, 撮影シーンにおける提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2020-09-26T13:44:58Z) - Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud
Object Detection [64.2159881697615]
3Dポイント雲からの物体検出は依然として難しい課題だが、最近の研究ではディープラーニング技術によって封筒を推し進めている。
本稿では,特徴表現の堅牢性を高めるために,ドメイン適応のようなアプローチを提案する。
我々の単純で効果的なアプローチは、3Dポイントクラウドオブジェクト検出の性能を根本的に向上させ、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-06-08T05:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。