論文の概要: SLGNet: Synergizing Structural Priors and Language-Guided Modulation for Multimodal Object Detection
- arxiv url: http://arxiv.org/abs/2601.02249v1
- Date: Mon, 05 Jan 2026 16:31:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.275677
- Title: SLGNet: Synergizing Structural Priors and Language-Guided Modulation for Multimodal Object Detection
- Title(参考訳): SLGNet:マルチモーダルオブジェクト検出のための構造優先と言語誘導変調の相乗化
- Authors: Xiantai Xiang, Guangyao Zhou, Zixiao Wen, Wenshuai Li, Ben Niu, Feng Wang, Lijia Huang, Qiantong Wang, Yuhan Liu, Zongxu Pan, Yuxin Hu,
- Abstract要約: 凍結した視覚変換器(ViT)に基づく基礎モデルにおいて,階層構造と言語誘導変調を相乗化するフレームワークであるSLGNetを提案する。
SLGNetは66.1mAPを実現し、トレーニング可能なパラメータを従来のフル微調整と比較して約87%削減した。
- 参考スコア(独自算出の注目度): 28.779870703756668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal object detection leveraging RGB and Infrared (IR) images is pivotal for robust perception in all-weather scenarios. While recent adapter-based approaches efficiently transfer RGB-pretrained foundation models to this task, they often prioritize model efficiency at the expense of cross-modal structural consistency. Consequently, critical structural cues are frequently lost when significant domain gaps arise, such as in high-contrast or nighttime environments. Moreover, conventional static multimodal fusion mechanisms typically lack environmental awareness, resulting in suboptimal adaptation and constrained detection performance under complex, dynamic scene variations. To address these limitations, we propose SLGNet, a parameter-efficient framework that synergizes hierarchical structural priors and language-guided modulation within a frozen Vision Transformer (ViT)-based foundation model. Specifically, we design a Structure-Aware Adapter to extract hierarchical structural representations from both modalities and dynamically inject them into the ViT to compensate for structural degradation inherent in ViT-based backbones. Furthermore, we propose a Language-Guided Modulation module that exploits VLM-driven structured captions to dynamically recalibrate visual features, thereby endowing the model with robust environmental awareness. Extensive experiments on the LLVIP, FLIR, KAIST, and DroneVehicle datasets demonstrate that SLGNet establishes new state-of-the-art performance. Notably, on the LLVIP benchmark, our method achieves an mAP of 66.1, while reducing trainable parameters by approximately 87% compared to traditional full fine-tuning. This confirms SLGNet as a robust and efficient solution for multimodal perception.
- Abstract(参考訳): RGBと赤外線(IR)画像を利用したマルチモーダル物体検出は、全天候シナリオにおけるロバストな認識に重要である。
最近のアダプタベースのアプローチでは、RGBで規定された基礎モデルをこのタスクに効率的に転送するが、それらはしばしば、クロスモーダルな構造的一貫性を犠牲にしてモデル効率を優先する。
その結果、高コントラストや夜間など、重要な領域ギャップが発生すると、重要な構造的手がかりが頻繁に失われる。
さらに,従来の静的多モード核融合機構では環境認識が欠如しており,複雑な動的シーン変動下での準最適適応と制約検出性能が期待できる。
これらの制約に対処するため、凍結視覚変換器(ViT)ベースの基礎モデルにおいて、階層構造と言語誘導変調を相乗化するパラメータ効率のよいフレームワークであるSLGNetを提案する。
具体的には、両モードから階層構造表現を抽出し、それをViTに動的に注入し、ViTベースのバックボーンに固有の構造劣化を補償する構造認識アダプタを設計する。
さらに,VLM駆動型構造化キャプションを利用して視覚的特徴を動的に再分類し,環境意識の強いモデルを実現するLanguage-Guided Modulationモジュールを提案する。
LLVIP、FLIR、KAIST、DroneVehicleのデータセットに関する大規模な実験は、SLGNetが新しい最先端のパフォーマンスを確立することを実証している。
特にLLVIPベンチマークでは,トレーニング可能なパラメータを従来のフル微調整と比較して約87%削減し,66.1mAPを達成した。
これにより、SLGNetはマルチモーダル知覚のための堅牢で効率的なソリューションであると確認される。
関連論文リスト
- Zero-Reference Joint Low-Light Enhancement and Deblurring via Visual Autoregressive Modeling with VLM-Derived Modulation [18.67176370944511]
現実の暗黒画像は、視界とコントラストの低いだけでなく、複雑なノイズやぼやけも示しており、重要な修復上の課題を呈している。
視覚言語モデル(VLM)を用いた視覚自己回帰モデル(VAR)に基づく生成フレームワークを提案する。
我々のフレームワークは完全に教師なしであり、ベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-23T19:08:45Z) - RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models [48.91205564876609]
軽量物体検出器の高効率化を目的とした,コスト効率・高適合性蒸留フレームワークを提案する。
当社のアプローチは、さまざまなDETRベースのモデルに対して、目立って一貫したパフォーマンス向上を実現しています。
我々の新しいモデルファミリーRT-DETRv4はCOCOの最先端結果を達成し、APスコアは49.7/53.5/55.4/57.0で、対応する速度は273/169/124/78 FPSである。
論文 参考訳(メタデータ) (2025-10-29T08:13:17Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection [4.5138645285711165]
LSP-ST(Ladder Shape-Biased Side-Tuning)を提案する。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach [0.0]
非構成の複雑な環境における物体検出タスクのためのFlorence2モデルを微調整した。
最適化されたFlorence2モデルでは、オブジェクト検出精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-03-06T19:31:51Z) - VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。