論文の概要: IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks
- arxiv url: http://arxiv.org/abs/2412.16654v2
- Date: Tue, 18 Mar 2025 07:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:10.840426
- Title: IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks
- Title(参考訳): IV-tuning:赤外可視タスクのためのパラメータ効率な伝達学習
- Authors: Yaming Zhang, Chenqiang Gao, Fangcen Liu, Junjie Guo, Lan Wang, Xinggan Peng, Deyu Meng,
- Abstract要約: IV-tuning」は、パラメータ効率の良いPVMを赤外可視タスクに活用するための、新規で汎用的な微調整手法である。
IVチューニングは、トレーニング済みの可視性PVMを凍結し、赤外線フローをアダプタと対話するためのモーダルプロンプトに統合する。
約3%のバックボーンパラメータを微調整することで、IVチューニングは完全な微調整および従来の最先端の手法よりも優れる。
- 参考スコア(独自算出の注目度): 47.08388430506686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various infrared-visible (IR-VIS) tasks greatly benefit from the advantage of combining infrared and visible modalities. Driven by the motivation that streamlining the infrared flow and harnessing PVMs with fewer parameters for superior performance, we propose "IV-tuning", a novel and general fine-tuning approach, to parameter-efficiently harness PVMs for various infrared-visible downstream tasks. At its core, IV-tuning freezes pre-trained visible-based PVMs and integrates infrared flow into modal prompts to interact with adapters, which achieves a more efficient and general modal interaction paradigm. By fine-tuning approximately 3% of the backbone parameters, IV-tuning outperforms full fine-tuning and previous state-of-the-art methods across multiple baselines in multiple tasks, including IR-VIS salient object detection, semantic segmentation and object detection. Extensive experiments demonstrate that IV-tuning achieves superior performance with fewer trainable parameters, providing a good alternative to full fine-tuning and a novel method of extending visible-based models for infrared-visible tasks. The code will be provided in supplementary material.
- Abstract(参考訳): 様々な赤外線可視(IR-VIS)タスクは、赤外線と可視光モードを組み合わせる利点から大きな恩恵を受ける。
各種の赤外可視下流タスクにPVMをパラメータ効率よく活用する,新規で汎用的な微調整手法である"IV-tuning"を提案する。
中心となるIVチューニングは、事前訓練された可視PVMを凍結し、より効率的で汎用的なモーダル相互作用パラダイムを実現するために、赤外線フローをアダプタと相互作用するモーダルプロンプトに統合する。
約3%のバックボーンパラメータを微調整することにより、IV-tuningは、IR-VISサリアンオブジェクト検出、セマンティックセグメンテーション、オブジェクト検出を含む複数のタスクにおいて、複数のベースラインにまたがる、完全な微調整および過去の最先端メソッドのパフォーマンスを向上する。
広汎な実験により、IVチューニングはトレーニング可能なパラメータが少なくて優れた性能を発揮することが示され、フル微調整に代わる優れた代替手段となり、赤外線可視タスクの可視モデルを拡張する新しい方法が提供される。
コードは補足資料として提供される。
関連論文リスト
- Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation [5.326302374594885]
前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。
LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - DiffV2IR: Visible-to-Infrared Diffusion Model via Vision-Language Understanding [43.85632218045282]
DiffV2IRは、プログレッシブラーニングモジュール(PLM)と視覚言語理解モジュール(VLUM)の2つの要素からなる画像翻訳のための新しいフレームワークである。
PLMは、多段階知識学習を活用して、フルレンジからターゲット波長への赤外線遷移を実現する適応拡散モデルアーキテクチャを備えている。
VLUMにはビジョン・ランゲージ理解が組み込まれており、様々な環境条件下で、50万枚の赤外線画像を含む大きな赤外線データセットIR-500Kも収集している。
論文 参考訳(メタデータ) (2025-03-24T17:58:09Z) - BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module [11.898515581215708]
視覚計測(VO)は、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。
本稿では,トランスフォーマーアーキテクチャに基づく新しいVOモデルであるBrightVOを紹介し,フロントエンドの視覚的特徴抽出を行う。
ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
論文 参考訳(メタデータ) (2025-01-15T08:50:52Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion [15.538174593176166]
本研究では,RGB熱水シーン解析のためのVFM機能をフル活用するための実現可能な戦略について検討する。
具体的には、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。
この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。
論文 参考訳(メタデータ) (2024-04-04T15:31:11Z) - ViTGaze: Gaze Following with Interaction Features in Vision Transformers [42.08842391756614]
本稿では, ViTGaze という新しい単一モダリティ・ギャラクシー・フレームワークを紹介する。
従来の手法とは対照的に、主に強力なエンコーダに基づく新しい視線追跡フレームワークを作成する。
本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-03-19T14:45:17Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Transferring Modality-Aware Pedestrian Attentive Learning for
Visible-Infrared Person Re-identification [43.05147831905626]
本稿では,トランスファーリング・モダリティを意識した歩行者注意学習(TMPA)モデルを提案する。
TMPAは、欠落したモダリティ固有の特徴を効率的に補うために歩行者地域に焦点を当てている。
ベンチマークSYSU-MM01とRegDBデータセットを用いて実験を行い,提案したTMPAモデルの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-12T07:15:17Z) - Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face
Anti-Spoofing [19.142582966452935]
RGB、赤外線(IR)、深度によるマルチモーダルFASのためのViTにおける3つの重要な要素(入力、事前学習、微調整)について検討した。
マルチモーダルFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$2$A$2$E) を提案する。
論文 参考訳(メタデータ) (2023-02-11T17:02:34Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - CycleTrans: Learning Neutral yet Discriminative Features for
Visible-Infrared Person Re-Identification [79.84912525821255]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線モダリティ間で同一人物をマッチングするタスクである。
既存のVI-ReID手法は主に、特徴識別性を犠牲にして、モダリティを越えて一般的な特徴を学習することに焦点を当てている。
ニュートラルかつ差別的な特徴学習のための新しいサイクル構築型ネットワークであるCycleTransを提案する。
論文 参考訳(メタデータ) (2022-08-21T08:41:40Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z) - Neural Feature Search for RGB-Infrared Person Re-Identification [3.499870393443268]
我々はニューラル・フィーチャー・サーチ(NFS)と呼ばれる一般的なパラダイムを研究し、特徴選択のプロセスを自動化する。
NFSは、二重レベルの特徴探索空間と微分可能な探索戦略を組み合わせて、粗粒度チャネルと細粒度空間画素のアイデンティティ関連キューを共同で選択する。
本手法は,主流ベンチマークにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-04-06T08:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。