論文の概要: Few-Shot LoRA Adaptation of a Flow-Matching Foundation Model for Cross-Spectral Object Detection
- arxiv url: http://arxiv.org/abs/2601.04381v1
- Date: Wed, 07 Jan 2026 20:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.910315
- Title: Few-Shot LoRA Adaptation of a Flow-Matching Foundation Model for Cross-Spectral Object Detection
- Title(参考訳): クロススペクトル物体検出のためのフローマッチング基礎モデルのFew-Shot LoRA適応
- Authors: Maxim Clouser, Kia Khezeli, John Kalantari,
- Abstract要約: ビジョンの基礎モデルは、主にRGBデータに基づいて訓練されている。
多くの安全クリティカルなアプリケーションは赤外線(IR)や合成開口レーダ(SAR)のような非可視モードに依存している。
本稿では,主にRGB画像上で事前学習した単一フローマッチング基盤モデルを,クロススペクトル変換器として再利用できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.726437825413781
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models for vision are predominantly trained on RGB data, while many safety-critical applications rely on non-visible modalities such as infrared (IR) and synthetic aperture radar (SAR). We study whether a single flow-matching foundation model pre-trained primarily on RGB images can be repurposed as a cross-spectral translator using only a few co-measured examples, and whether the resulting synthetic data can enhance downstream detection. Starting from FLUX.1 Kontext, we insert low-rank adaptation (LoRA) modules and fine-tune them on just 100 paired images per domain for two settings: RGB to IR on the KAIST dataset and RGB to SAR on the M4-SAR dataset. The adapted model translates RGB images into pixel-aligned IR/SAR, enabling us to reuse existing bounding boxes and train object detection models purely in the target modality. Across a grid of LoRA hyperparameters, we find that LPIPS computed on only 50 held-out pairs is a strong proxy for downstream performance: lower LPIPS consistently predicts higher mAP for YOLOv11n on both IR and SAR, and for DETR on KAIST IR test data. Using the best LPIPS-selected LoRA adapter, synthetic IR from external RGB datasets (LLVIP, FLIR ADAS) improves KAIST IR pedestrian detection, and synthetic SAR significantly boosts infrastructure detection on M4-SAR when combined with limited real SAR. Our results suggest that few-shot LoRA adaptation of flow-matching foundation models is a promising path toward foundation-style support for non-visible modalities.
- Abstract(参考訳): 視覚の基礎モデルは、主にRGBデータに基づいて訓練されているが、多くの安全クリティカルなアプリケーションは赤外線(IR)や合成開口レーダー(SAR)のような非可視モードに依存している。
本稿では,RGB画像を中心に事前学習した単一フローマッチング基盤モデルを,数例の共測定例を用いて,クロススペクトルトランスレータとして再利用可能か,合成データにより下流検出を向上できるかを検討する。
FLUX.1から始める
基本的に、ローランク適応(LoRA)モジュールを挿入し、1ドメインあたり100対のイメージに微調整し、KAISTデータセットのRGBとIR、M4-SARデータセットのRGBとSARの2つの設定を行う。
適応モデルでは、RGB画像をピクセル整列IR/SARに変換することで、既存のバウンディングボックスやトレーニング対象検出モデルをターゲットモードで純粋に再利用することができる。
LPIPSは、LORAハイパーパラメータのグリッド全体にわたって、50組のホールトアウトペアで計算されたLPIPSが、ダウンストリームのパフォーマンスの強力なプロキシであることがわかった。
LPIPS選択LoRAアダプタの最適利用により、外部RGBデータセット(LLVIP、FLIR ADAS)からの合成IRはKAIST IRの歩行者検出を改善し、合成SARは限られた実SARと組み合わせることでM4-SARのインフラ検出を大幅に向上させる。
この結果から,フローマッチング基礎モデルのLoRA適応は,非可視的モダリティに対する基盤型サポートへの道のりとして有望であることが示唆された。
関連論文リスト
- WiSE-OD: Benchmarking Robustness in Infrared Object Detection [12.115815831689265]
WiSE-ODは、RGBゼロショットとIRファインチューニングの重みを組み合わせたWiSE-OD$_ZS$と、ゼロショットとリニアプローブを混合したWiSE-OD$_LP$である。
標準のIRデータセットに汚職を適用することで構築された2つのモード間アウト・オブ・ディストリビューション・ベンチマークであるLLVIP-CとFLIR-Cを紹介する。
論文 参考訳(メタデータ) (2025-07-25T03:33:50Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - The Solution for the GAIIC2024 RGB-TIR object detection Challenge [5.625794757504552]
RGB-TIRオブジェクト検出は、RGBとTIRの両方の画像を、検出中に補完情報として利用する。
提案手法はAとBのベンチマークでそれぞれ0.516と0.543のmAPスコアを得た。
論文 参考訳(メタデータ) (2024-07-04T12:08:36Z) - UniRGB-IR: A Unified Framework for Visible-Infrared Semantic Tasks via Adapter Tuning [34.727262809777095]
我々は、RGB-IRセマンティックタスクのためのスケーラブルで効率的なフレームワークUniRGB-IRを提案する。
本フレームワークは,視覚変換器(ViT)基礎モデル,マルチモーダル特徴プール(SFI)モジュール,補助特徴プール(SFI)モジュールの3つの主要コンポーネントから構成される。
各種RGB-IRセマンティックタスクの実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-26T12:21:57Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - DiffIR: Efficient Diffusion Model for Image Restoration [108.82579440308267]
拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは、画像復元には非効率である。
本稿では、小型IR先行抽出ネットワーク(CPEN)、ダイナミックIR変換器(DIRformer)、デノナイズネットワーク(Denoising Network)からなるDiffIRを提案する。
論文 参考訳(メタデータ) (2023-03-16T16:47:14Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。