Fugu-MT 論文翻訳(概要): MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

論文の概要: MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

arxiv url: http://arxiv.org/abs/2603.05071v1
Date: Thu, 05 Mar 2026 11:39:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.207793
Title: MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration
Title（参考訳）: MI-DETR:バイオインスパイアされた運動統合による赤外小ターゲット検出のための強力なベースライン
Authors: Nian Liu, Jin Gao, Shubo Lin, Yutong Kou, Sikui Zhang, Fudong Ge, Zhiqiang Pu, Liang Li, Gang Wang, Yizheng Wang, Weiming Hu,
Abstract要約: 我々は、赤外線小ターゲット検出のためのバイオインスパイアされたデュアルパス検出装置であるモーション統合DETR(MI-DETR)を提案する。まず、網膜にインスパイアされたセルオートマトン(RCA)は、生フレーム配列を外観画像と同じピクセルグリッド上に定義されたモーションマップに変換する。第二に、PMI(Parvocellular-Magnocellular Interconnection)ブロックは2つの経路間の双方向の特徴的相互作用を促進する。
参考スコア（独自算出の注目度）: 63.87179575890912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Infrared small target detection (ISTD) is challenging because tiny, low-contrast targets are easily obscured by complex and dynamic backgrounds. Conventional multi-frame approaches typically learn motion implicitly through deep neural networks, often requiring additional motion supervision or explicit alignment modules. We propose Motion Integration DETR (MI-DETR), a bio-inspired dual-pathway detector that processes one infrared frame per time step while explicitly modeling motion. First, a retina-inspired cellular automaton (RCA) converts raw frame sequences into a motion map defined on the same pixel grid as the appearance image, enabling parvocellular-like appearance and magnocellular-like motion pathways to be supervised by a single set of bounding boxes without extra motion labels or alignment operations. Second, a Parvocellular-Magnocellular Interconnection (PMI) Block facilitates bidirectional feature interaction between the two pathways, providing a biologically motivated intermediate interconnection mechanism. Finally, a RT-DETR decoder operates on features from the two pathways to produce detection results. Surprisingly, our proposed simple yet effective approach yields strong performance on three commonly used ISTD benchmarks. MI-DETR achieves 70.3% mAP@50 and 72.7% F1 on IRDST-H (+26.35 mAP@50 over the best multi-frame baseline), 98.0% mAP@50 on DAUB-R, and 88.3% mAP@50 on ITSDT-15K, demonstrating the effectiveness of biologically inspired motion-appearance integration. Code is available at https://github.com/nliu-25/MI-DETR.
Abstract（参考訳）: 小型で低コントラストのターゲットは複雑でダイナミックな背景によって容易に隠蔽されるため、赤外線小ターゲット検出(ISTD)は困難である。従来のマルチフレームアプローチは通常、深層ニューラルネットワークを通じて暗黙的に動きを学習し、しばしば追加の動作監視や明示的なアライメントモジュールを必要とする。動作を明示的にモデル化しながら1時間に1つの赤外線フレームを処理するバイオインスパイアされたデュアルパス検出装置であるMotion Integration DETR(MI-DETR)を提案する。第1に、網膜誘発細胞オートマトン(RCA)は、原フレーム配列を外観画像と同じ画素グリッド上に定義されたモーションマップに変換し、余分なモーションラベルやアライメント操作を伴わない単一の境界ボックスによって、パルボ細胞様の外観及びマグノセル様の運動経路を監視できるようにする。第二に、Parvocellular-Magnocellular Interconnection (PMI) ブロックは2つの経路間の双方向の特徴的相互作用を促進し、生物学的に動機付けられた中間的相互結合機構を提供する。最後に、RT-DETRデコーダは2つの経路の特徴を利用して検出結果を生成する。意外なことに,提案手法は3つのISTDベンチマークに対して高い性能を示す。 MI-DETRはIRDST-Hで70.3% mAP@50、72.7% F1(最高のマルチフレームベースラインで+26.35 mAP@50)、DAUB-Rで98.0% mAP@50、ITTDT-15Kで88.3% mAP@50を達成し、生物学的にインスパイアされた動き・外観統合の有効性を示した。コードはhttps://github.com/nliu-25/MI-DETRで公開されている。

関連論文リスト

UNIV: Unified Foundation Model for Infrared and Visible Modalities [12.0490466425884]
Infrared and Visible modalities(UNIV)のための生物学的に着想を得た統一基盤モデルを提案する。 PCCLは、網膜水平細胞の側方抑制を模倣する注意誘導蒸留フレームワークである。我々の二重知識保存機構は網膜の双極性細胞シグナルルーティングをエミュレートする。
論文参考訳（メタデータ） (2025-09-19T06:07:53Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement [28.570085937225976]
本稿では,動作強化を伴う注意的クロスモーダルインタラクションネットワークという,新たなフレームワークを提案する。 RGBモダリティ(英語版)とモーションモダリティ(英語版)の2ストリームアーキテクチャ(英語版)に従う。 UCF-101、HMDB-51、Kinetics-400ベンチマークの実験では、MEACI-Netの有効性と効率が示されている。
論文参考訳（メタデータ） (2022-05-07T06:26:49Z)
MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文参考訳（メタデータ） (2021-07-22T03:10:51Z)
Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文参考訳（メタデータ） (2021-04-25T00:59:53Z)
Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文参考訳（メタデータ） (2021-03-23T03:06:26Z)
A Bioinspired Approach-Sensitive Neural Network for Collision Detection in Cluttered and Dynamic Backgrounds [19.93930316898735]
移動中の物体の迅速かつ堅牢な検出は、ロボット視覚システムにとって重要かつ困難な問題である。哺乳類網膜における神経回路の初等視覚にインスパイアされた,バイオインスパイアされたアプローチ感受性ニューラルネットワーク(AS)を提案する。提案手法は, クラッタや動的背景の衝突を高精度かつロバストに検出するだけでなく, 位置や方向などの衝突情報を抽出し, 迅速な意思決定を支援する。
論文参考訳（メタデータ） (2021-03-01T09:16:18Z)
Actions as Moving Points [66.21507857877756]
我々は、MovingCenter Detector(MOC-detector)と呼ばれる概念的にシンプルで、効率的で、より精密なアクションチューブレット検出フレームワークを提案する。動作情報が行動管検出を簡素化し,補助するという考えから,MOC検出器は3つの重要な頭部枝から構成される。我々のMOC検出器は、JHMDBおよびUCF101-24データセット上のフレームmAPとビデオmAPの両方のメトリクスに対して、既存の最先端手法よりも優れています。
論文参考訳（メタデータ） (2020-01-14T03:29:44Z)
A Time-Delay Feedback Neural Network for Discriminating Small, Fast-Moving Targets in Complex Dynamic Environments [8.645725394832969]
複雑な視覚環境の中で小さな移動物体を識別することは、自律型マイクロロボットにとって重要な課題である。フィードバック接続を備えたSTMDベースのニューラルネットワーク(Feedback STMD)を提案する。
論文参考訳（メタデータ） (2019-12-29T03:10:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。