論文の概要: IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks
- arxiv url: http://arxiv.org/abs/2412.16654v1
- Date: Sat, 21 Dec 2024 14:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:38.590556
- Title: IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks
- Title(参考訳): IV-tuning:赤外可視タスクのためのパラメータ効率な伝達学習
- Authors: Yaming Zhang, Chenqiang Gao, Fangcen Liu, Junjie Guo, Lan Wang, Xinggan Peng, Deyu Meng,
- Abstract要約: セマンティックセグメンテーションやオブジェクト検出などの赤外線可視(IR-VIS)タスクは、赤外線と可視モードを組み合わせることで大きな恩恵を受ける。
Vision Foundation Models (VFM) の一般的な表現を継承するために、タスク固有のデュアルブランチネットワークが設計され、下流のデータセットで完全に微調整される。
パラメータ効率のよいVFMを多種多様な赤外可視下流タスクに活用するための,新しい,汎用的な微調整手法"IV-tuning"を提案する。
- 参考スコア(独自算出の注目度): 47.08388430506686
- License:
- Abstract: Infrared-visible (IR-VIS) tasks, such as semantic segmentation and object detection, greatly benefit from the advantage of combining infrared and visible modalities. To inherit the general representations of the Vision Foundation Models (VFMs), task-specific dual-branch networks are designed and fully fine-tuned on downstream datasets. Although effective, this manner lacks generality and is sub-optimal due to the scarcity of downstream infrared-visible datasets and limited transferability. In this paper, we propose a novel and general fine-tuning approach, namely "IV-tuning", to parameter-efficiently harness VFMs for various infrared-visible downstream tasks. At its core, IV-tuning freezes pre-trained visible-based VFMs and integrates modal-specific prompts with adapters within the backbone, bridging the gap between VFMs and downstream infrared-visible tasks while simultaneously learning the complementarity between different modalities. By fine-tuning approximately 3% of the backbone parameters, IV-tuning outperforms full fine-tuning across various baselines in infrared-visible semantic segmentation and object detection, as well as previous state-of-the-art methods. Extensive experiments across various settings demonstrate that IV-tuning achieves superior performance with fewer training parameters, providing a good alternative to full fine-tuning and a novel method of extending visible-based models for infrared-visible tasks. The code is available at https://github.com/Yummy198913/IV-tuning.
- Abstract(参考訳): セマンティックセグメンテーションやオブジェクト検出のような赤外線可視(IR-VIS)タスクは、赤外線と可視モードを組み合わせる利点から大きな恩恵を受ける。
Vision Foundation Models (VFM) の一般的な表現を継承するために、タスク固有のデュアルブランチネットワークが設計され、下流のデータセットで完全に微調整される。
効果はあるものの、この方法は一般性に欠け、下流の赤外線可視データセットの不足と限られた転送可能性のため、準最適である。
本稿では,様々な赤外可視下流タスクにパラメータ効率よくVFMを利用するための,新しい,汎用的な微調整手法"IV-tuning"を提案する。
IVチューニングは、トレーニング済みの可視VFMを凍結し、モダル特異的プロンプトをバックボーン内のアダプタと統合し、異なるモダリティ間の相補性を同時に学習しながら、VFMと下流の赤外線可視タスクのギャップを埋める。
約3%のバックボーンパラメータを微調整することにより、IVチューニングは、赤外線可視セマンティックセグメンテーションとオブジェクト検出、および従来の最先端手法において、様々なベースラインにわたって完全な微調整を行う。
様々な設定にわたる広範囲な実験により、IVチューニングはトレーニングパラメータを少なくして優れたパフォーマンスを実現し、フル微調整に代わる優れた代替手段を提供し、赤外線可視タスクの可視モデルを拡張する新しい方法を提供する。
コードはhttps://github.com/Yummy 198913/IV-tuning.comで公開されている。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion [15.538174593176166]
本研究では,RGB熱水シーン解析のためのVFM機能をフル活用するための実現可能な戦略について検討する。
具体的には、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。
この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。
論文 参考訳(メタデータ) (2024-04-04T15:31:11Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Transferring Modality-Aware Pedestrian Attentive Learning for
Visible-Infrared Person Re-identification [43.05147831905626]
本稿では,トランスファーリング・モダリティを意識した歩行者注意学習(TMPA)モデルを提案する。
TMPAは、欠落したモダリティ固有の特徴を効率的に補うために歩行者地域に焦点を当てている。
ベンチマークSYSU-MM01とRegDBデータセットを用いて実験を行い,提案したTMPAモデルの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-12T07:15:17Z) - Unified Single-Stage Transformer Network for Efficient RGB-T Tracking [47.88113335927079]
我々は、上記3つのステージを単一のViT(Vision Transformer)バックボーンに統合するシングルステージのRGB-Tトラッキングネットワーク、すなわちUSTrackを提案する。
この構造により、ネットワークは、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。
3つのRGB-T追跡ベンチマーク実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-08-26T05:09:57Z) - Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face
Anti-Spoofing [19.142582966452935]
RGB、赤外線(IR)、深度によるマルチモーダルFASのためのViTにおける3つの重要な要素(入力、事前学習、微調整)について検討した。
マルチモーダルFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$2$A$2$E) を提案する。
論文 参考訳(メタデータ) (2023-02-11T17:02:34Z) - CycleTrans: Learning Neutral yet Discriminative Features for
Visible-Infrared Person Re-Identification [79.84912525821255]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線モダリティ間で同一人物をマッチングするタスクである。
既存のVI-ReID手法は主に、特徴識別性を犠牲にして、モダリティを越えて一般的な特徴を学習することに焦点を当てている。
ニュートラルかつ差別的な特徴学習のための新しいサイクル構築型ネットワークであるCycleTransを提案する。
論文 参考訳(メタデータ) (2022-08-21T08:41:40Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z) - Neural Feature Search for RGB-Infrared Person Re-Identification [3.499870393443268]
我々はニューラル・フィーチャー・サーチ(NFS)と呼ばれる一般的なパラダイムを研究し、特徴選択のプロセスを自動化する。
NFSは、二重レベルの特徴探索空間と微分可能な探索戦略を組み合わせて、粗粒度チャネルと細粒度空間画素のアイデンティティ関連キューを共同で選択する。
本手法は,主流ベンチマークにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-04-06T08:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。