Fugu-MT 論文翻訳(概要): IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

論文の概要: IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

arxiv url: http://arxiv.org/abs/2412.16654v2
Date: Tue, 18 Mar 2025 07:52:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:10.840426
Title: IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks
Title（参考訳）: IV-tuning:赤外可視タスクのためのパラメータ効率な伝達学習
Authors: Yaming Zhang, Chenqiang Gao, Fangcen Liu, Junjie Guo, Lan Wang, Xinggan Peng, Deyu Meng,
Abstract要約: IV-tuning」は、パラメータ効率の良いPVMを赤外可視タスクに活用するための、新規で汎用的な微調整手法である。 IVチューニングは、トレーニング済みの可視性PVMを凍結し、赤外線フローをアダプタと対話するためのモーダルプロンプトに統合する。約3%のバックボーンパラメータを微調整することで、IVチューニングは完全な微調整および従来の最先端の手法よりも優れる。
参考スコア（独自算出の注目度）: 47.08388430506686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Various infrared-visible (IR-VIS) tasks greatly benefit from the advantage of combining infrared and visible modalities. Driven by the motivation that streamlining the infrared flow and harnessing PVMs with fewer parameters for superior performance, we propose "IV-tuning", a novel and general fine-tuning approach, to parameter-efficiently harness PVMs for various infrared-visible downstream tasks. At its core, IV-tuning freezes pre-trained visible-based PVMs and integrates infrared flow into modal prompts to interact with adapters, which achieves a more efficient and general modal interaction paradigm. By fine-tuning approximately 3% of the backbone parameters, IV-tuning outperforms full fine-tuning and previous state-of-the-art methods across multiple baselines in multiple tasks, including IR-VIS salient object detection, semantic segmentation and object detection. Extensive experiments demonstrate that IV-tuning achieves superior performance with fewer trainable parameters, providing a good alternative to full fine-tuning and a novel method of extending visible-based models for infrared-visible tasks. The code will be provided in supplementary material.
Abstract（参考訳）: 様々な赤外線可視(IR-VIS)タスクは、赤外線と可視光モードを組み合わせる利点から大きな恩恵を受ける。各種の赤外可視下流タスクにPVMをパラメータ効率よく活用する,新規で汎用的な微調整手法である"IV-tuning"を提案する。中心となるIVチューニングは、事前訓練された可視PVMを凍結し、より効率的で汎用的なモーダル相互作用パラダイムを実現するために、赤外線フローをアダプタと相互作用するモーダルプロンプトに統合する。約3%のバックボーンパラメータを微調整することにより、IV-tuningは、IR-VISサリアンオブジェクト検出、セマンティックセグメンテーション、オブジェクト検出を含む複数のタスクにおいて、複数のベースラインにまたがる、完全な微調整および過去の最先端メソッドのパフォーマンスを向上する。広汎な実験により、IVチューニングはトレーニング可能なパラメータが少なくて優れた性能を発揮することが示され、フル微調整に代わる優れた代替手段となり、赤外線可視タスクの可視モデルを拡張する新しい方法が提供される。コードは補足資料として提供される。

関連論文リスト

One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。 V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文参考訳（メタデータ） (2025-05-23T17:41:14Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation [5.326302374594885]
前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。 LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
論文参考訳（メタデータ） (2025-04-20T04:12:38Z)
DiffV2IR: Visible-to-Infrared Diffusion Model via Vision-Language Understanding [43.85632218045282]
DiffV2IRは、プログレッシブラーニングモジュール(PLM)と視覚言語理解モジュール(VLUM)の2つの要素からなる画像翻訳のための新しいフレームワークである。 PLMは、多段階知識学習を活用して、フルレンジからターゲット波長への赤外線遷移を実現する適応拡散モデルアーキテクチャを備えている。 VLUMにはビジョン・ランゲージ理解が組み込まれており、様々な環境条件下で、50万枚の赤外線画像を含む大きな赤外線データセットIR-500Kも収集している。
論文参考訳（メタデータ） (2025-03-24T17:58:09Z)
BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module [11.898515581215708]
視覚計測(VO)は、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。本稿では,トランスフォーマーアーキテクチャに基づく新しいVOモデルであるBrightVOを紹介し,フロントエンドの視覚的特徴抽出を行う。ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
論文参考訳（メタデータ） (2025-01-15T08:50:52Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification [0.6675805308519986]
Visible-infrared person re-identification (VI-reID) は、視界や赤外線カメラで捉えた、モダリティの横断的な歩行者像のマッチングを目的としている。 VI-ReIDのタスクに対して,パラメータ階層最適化(PHO)手法を新たに提案する。これにより、パラメータの検索スペースを狭め、ネットワーク全体をトレーニングしやすくする。
論文参考訳（メタデータ） (2024-04-11T17:27:39Z)
HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion [15.538174593176166]
本研究では,RGB熱水シーン解析のためのVFM機能をフル活用するための実現可能な戦略について検討する。具体的には、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。
論文参考訳（メタデータ） (2024-04-04T15:31:11Z)
ViTGaze: Gaze Following with Interaction Features in Vision Transformers [42.08842391756614]
本稿では, ViTGaze という新しい単一モダリティ・ギャラクシー・フレームワークを紹介する。従来の手法とは対照的に、主に強力なエンコーダに基づく新しい視線追跡フレームワークを作成する。本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2024-03-19T14:45:17Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文参考訳（メタデータ） (2023-12-17T05:27:31Z)
Transferring Modality-Aware Pedestrian Attentive Learning for Visible-Infrared Person Re-identification [43.05147831905626]
本稿では,トランスファーリング・モダリティを意識した歩行者注意学習(TMPA)モデルを提案する。 TMPAは、欠落したモダリティ固有の特徴を効率的に補うために歩行者地域に焦点を当てている。ベンチマークSYSU-MM01とRegDBデータセットを用いて実験を行い,提案したTMPAモデルの有効性を実証した。
論文参考訳（メタデータ） (2023-12-12T07:15:17Z)
Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face Anti-Spoofing [19.142582966452935]
RGB、赤外線(IR)、深度によるマルチモーダルFASのためのViTにおける3つの重要な要素(入力、事前学習、微調整)について検討した。マルチモーダルFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$2$A$2$E) を提案する。
論文参考訳（メタデータ） (2023-02-11T17:02:34Z)
Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文参考訳（メタデータ） (2022-10-03T09:54:39Z)
CycleTrans: Learning Neutral yet Discriminative Features for Visible-Infrared Person Re-Identification [79.84912525821255]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線モダリティ間で同一人物をマッチングするタスクである。既存のVI-ReID手法は主に、特徴識別性を犠牲にして、モダリティを越えて一般的な特徴を学習することに焦点を当てている。ニュートラルかつ差別的な特徴学習のための新しいサイクル構築型ネットワークであるCycleTransを提案する。
論文参考訳（メタデータ） (2022-08-21T08:41:40Z)
Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文参考訳（メタデータ） (2022-07-14T10:04:18Z)
Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。 VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文参考訳（メタデータ） (2022-03-23T01:17:16Z)
On Exploring Pose Estimation as an Auxiliary Learning Task for Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。 2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文参考訳（メタデータ） (2022-01-11T09:44:00Z)
Fully Differentiable and Interpretable Model for VIO with 4 Trainable Parameters [16.347927939872488]
単眼の視覚-慣性オドメトリーは、ロボット工学と自律運転において重要な問題である。本稿では,4つのトレーニング可能なパラメータのみを含む完全微分可能,解釈可能,軽量な単分子VIOモデルを提案する。合成および実世界のデータセットに関する実験結果は、我々の単純なアプローチが最先端の手法と競合することを示している。
論文参考訳（メタデータ） (2021-09-25T06:54:09Z)
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文参考訳（メタデータ） (2021-09-24T08:07:29Z)
Neural Feature Search for RGB-Infrared Person Re-Identification [3.499870393443268]
我々はニューラル・フィーチャー・サーチ(NFS)と呼ばれる一般的なパラダイムを研究し、特徴選択のプロセスを自動化する。 NFSは、二重レベルの特徴探索空間と微分可能な探索戦略を組み合わせて、粗粒度チャネルと細粒度空間画素のアイデンティティ関連キューを共同で選択する。本手法は,主流ベンチマークにおける最先端の手法よりも優れる。
論文参考訳（メタデータ） (2021-04-06T08:40:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。