論文の概要: LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2504.14481v2
- Date: Mon, 13 Oct 2025 04:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.433731
- Title: LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection
- Title(参考訳): LSP-ST:ロバスト赤外小ターゲット検出のためのラダー形状バイアスサイドチューニング
- Authors: Guoyi Zhang, Siyang Chen, Guangsheng Xu, Han Wang, Donghe Wang, Xiaohu Zhang,
- Abstract要約: LSP-ST(Ladder Shape-Biased Side-Tuning)を提案する。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 4.5138645285711165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning the Segment Anything Model (SAM) for infrared small target detection poses significant challenges due to severe domain shifts. Existing adaptation methods often incorporate handcrafted priors to bridge this gap, yet such designs limit generalization and scalability. We identify a fundamental texture bias in foundation models, which overly depend on local texture cues for target localization. To address this, we propose Ladder Shape-Biased Side-Tuning (LSP-ST), a novel approach that introduces a shape-aware inductive bias to facilitate effective adaptation beyond texture cues. In contrast to prior work that injects explicit edge or contour features, LSP-ST models shape as a global structural prior, integrating both boundaries and internal layouts. We design a Shape-Enhanced Large-Kernel Attention Module to hierarchically and implicitly capture structural information in a fully differentiable manner, without task-specific handcrafted guidance. A theoretical analysis grounded in matched filtering and backpropagation reveals the mechanism by which the proposed attention improves structure-aware learning. With only 4.72M learnable parameters, LSP-ST achieves state-of-the-art performance on multiple infrared small target detection benchmarks. Furthermore, its strong generalization is validated across tasks such as mirror detection, shadow detection, and camouflaged object detection, while maintaining stable performance on texture-driven tasks like salient object detection, demonstrating that the introduced shape bias complements rather than competes with texture-based reasoning.
- Abstract(参考訳): 赤外線小ターゲット検出のためのSegment Anything Model(SAM)の微調整は、厳しいドメインシフトのために大きな課題となる。
既存の適応法は、しばしばこのギャップを埋めるために手作りの先行を組み込むが、そのような設計は一般化と拡張性を制限している。
基礎モデルの基本的なテクスチャバイアスを同定する。
そこで本研究では, 形状認識型誘導バイアスを導入し, テクスチャキューを超えて効果的に適応する手法であるLadder Shape-Biased Side-Tuning (LSP-ST)を提案する。
明示的なエッジや輪郭の特徴を注入する以前の作業とは対照的に、LSP-STモデルはグローバルな構造的事前として形成され、境界と内部のレイアウトが統合される。
我々は,タスク固有の手作り指導を使わずに,構造情報を階層的かつ暗黙的に完全に識別可能な方法でキャプチャする形状拡張大カーネル注意モジュールを設計する。
マッチングフィルタリングとバックプロパゲーションに基づく理論的解析により,提案手法が構造認識学習を改善するメカニズムを明らかにする。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
さらに、その強力な一般化は、ミラー検出、シャドー検出、カモフラージュされたオブジェクト検出などのタスクにまたがって検証されると同時に、サルエントオブジェクト検出のようなテクスチャ駆動タスクにおける安定したパフォーマンスを維持しながら、導入された形状偏差がテクスチャベースの推論と競合するよりも補完することを示す。
関連論文リスト
- IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - You Only Look Omni Gradient Backpropagation for Moving Infrared Small Target Detection [4.782962269769956]
小型ターゲット検出のためのバックプロパゲーション駆動型特徴ピラミッドアーキテクチャBP-FPNを提案する。
この設計は理論的に基礎があり、計算のオーバーヘッドを無視し、既存のフレームワークにシームレスに統合することができる。
複数の公開データセットに対する大規模な実験は、BP-FPNが一貫して新しい最先端のパフォーマンスを確立していることを示している。
論文 参考訳(メタデータ) (2025-11-17T06:13:41Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Beyond Motion Cues and Structural Sparsity: Revisiting Small Moving Target Detection [5.375165101682048]
小型移動目標検出は、多くの防衛用途に不可欠である。
しかし、低信号対雑音比、曖昧な視覚的手がかり、乱雑な背景のため、非常に困難である。
本稿では,既存のアプローチと根本的に異なる新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-09T12:20:25Z) - FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception [7.258172311752019]
重なり合う物体知覚は、ランダムに重なり合う前景の特徴を分離し、背景の特徴を抑えつつ前景の特徴を抽出することを目的としている。
本稿では、よりテクスチャや輪郭情報を抽出する際のモデルを支援するために、一般周波数ベースのアンチオーバーラップフレームワーク(FOAM)を提案する。
具体的には、周波数空間変換器ブロック(FSTB)を設計し、周波数領域と空間領域の両方から特徴を同時に抽出し、ネットワークがフォアグラウンドからより多くのテクスチャ特徴をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2025-06-16T13:58:49Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - CSPENet: Contour-Aware and Saliency Priors Embedding Network for Infrared Small Target Detection [4.731073701194089]
赤外線小目標検出(ISTD)は、幅広い民間・軍事用途において重要な役割を担っている。
既存の手法では, 密集した乱雑な環境下でのディムターゲットの局所化や輪郭情報の認識に欠陥がある。
本稿では,ISTDのためのcontour-aware and saliency priors embedded network (CSPENet)を提案する。
論文 参考訳(メタデータ) (2025-05-15T03:56:36Z) - Back to Fundamentals: Low-Level Visual Features Guided Progressive Token Pruning [8.284127681482202]
LVTPは、マルチスケールのTsallisエントロピーと2倍のクラスタリングを備えた低レベル視覚特徴によってガイドされるプログレッシブトークンプルーニングフレームワークである。
高レベルのセマンティクスと、正確なセグメンテーションのための基本的な視覚属性を統合している。
プラグアンドプレイモジュールとして、アーキテクチャの変更や追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2025-04-25T00:43:20Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Efficient Detection Framework Adaptation for Edge Computing: A Plug-and-play Neural Network Toolbox Enabling Edge Deployment [59.61554561979589]
エッジコンピューティングは、時間に敏感なシナリオでディープラーニングベースのオブジェクト検出をデプロイするための重要なパラダイムとして登場した。
既存のエッジ検出手法では、軽量モデルによる検出精度のバランスの難しさ、適応性の制限、現実の検証の不十分といった課題に直面している。
本稿では,汎用的なプラグイン・アンド・プレイコンポーネントを用いてエッジ環境にオブジェクト検出モデルを適用するエッジ検出ツールボックス(ED-TOOLBOX)を提案する。
論文 参考訳(メタデータ) (2024-12-24T07:28:10Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。
我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。
OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文 参考訳(メタデータ) (2024-04-18T12:41:33Z) - Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification [0.6675805308519986]
Visible-infrared person re-identification (VI-reID) は、視界や赤外線カメラで捉えた、モダリティの横断的な歩行者像のマッチングを目的としている。
VI-ReIDのタスクに対して,パラメータ階層最適化(PHO)手法を新たに提案する。
これにより、パラメータの検索スペースを狭め、ネットワーク全体をトレーニングしやすくする。
論文 参考訳(メタデータ) (2024-04-11T17:27:39Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Attentional Local Contrast Networks for Infrared Small Target Detection [15.882749652217653]
赤外線小目標検出のための新しいモデル駆動深層ネットワークを提案する。
従来の局所コントラスト測定法を、エンドツーエンドネットワークにおける深さ自在なパラメータレス非線形特徴精製層としてモジュール化します。
ネットワークアーキテクチャの各コンポーネントの有効性と効率を実証的に検証するために,ネットワーク奥行きの異なる詳細なアブレーション研究を行う。
論文 参考訳(メタデータ) (2020-12-15T19:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。