Fugu-MT 論文翻訳(概要): UniRGB-IR: A Unified Framework for RGB-Infrared Semantic Tasks via Adapter Tuning

論文の概要: UniRGB-IR: A Unified Framework for RGB-Infrared Semantic Tasks via Adapter Tuning

arxiv url: http://arxiv.org/abs/2404.17360v2
Date: Mon, 04 Nov 2024 14:47:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.082515
Title: UniRGB-IR: A Unified Framework for RGB-Infrared Semantic Tasks via Adapter Tuning
Title（参考訳）: UniRGB-IR:Adapter TuningによるRGB赤外線セマンティックタスクの統一フレームワーク
Authors: Maoxun Yuan, Bo Cui, Tianyi Zhao, Jiayi Wang, Shan Fu, Xingxing Wei,
Abstract要約: 我々は、RGB-IRセマンティックタスクを統合するために、UniRGB-IRと呼ばれる汎用的で効率的なフレームワークを提案する。よりリッチなRGB-IR機能を事前学習基盤モデルに効率的に導入する新しいアダプタを開発した。様々なRGB-IRダウンストリームタスクに対する実験結果から,本手法が最先端の性能を実現することを示す。
参考スコア（独自算出の注目度）: 17.36726475620881
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic analysis on visible (RGB) and infrared (IR) images has gained attention for its ability to be more accurate and robust under low-illumination and complex weather conditions. Due to the lack of pre-trained foundation models on the large-scale infrared image datasets, existing methods prefer to design task-specific frameworks and directly fine-tune them with pre-trained foundation models on their RGB-IR semantic relevance datasets, which results in poor scalability and limited generalization. In this work, we propose a general and efficient framework called UniRGB-IR to unify RGB-IR semantic tasks, in which a novel adapter is developed to efficiently introduce richer RGB-IR features into the pre-trained RGB-based foundation model. Specifically, our framework consists of a RGB-based foundation model, a Multi-modal Feature Pool (MFP) module and a Supplementary Feature Injector (SFI) module. The MFP and SFI modules cooperate with each other as an adapter to effectively complement the RGB-based features with the rich RGB-IR features. During training process, we freeze the entire foundation model to inherit prior knowledge and only optimize the proposed adapter. Furthermore, to verify the effectiveness of our framework, we utilize the vanilla vision transformer (ViT-Base) as the pre-trained foundation model to perform extensive experiments. Experimental results on various RGB-IR downstream tasks demonstrate that our method can achieve state-of-the-art performance. The source code and results are available at https://github.com/PoTsui99/UniRGB-IR.git.
Abstract（参考訳）: 可視光(RGB)と赤外線(IR)画像のセマンティック解析は、低照度および複雑な気象条件下でより正確で堅牢であることから注目されている。大規模な赤外線画像データセットに事前トレーニングされた基礎モデルがないため、既存の手法ではタスク固有のフレームワークを設計し、RGB-IRセマンティック関連データセット上で事前トレーニングされた基礎モデルで直接微調整することを好む。そこで,本研究では,RGB-IRセマンティックタスクを統合するためのUniRGB-IRというフレームワークを提案する。具体的には、RGBベースの基礎モデル、MFP(Multi-modal Feature Pool)モジュール、SFI(Supplementary Feature Injector)モジュールで構成される。 MFPとSFIモジュールは、RGBベースの機能とリッチなRGB-IR機能を効果的に補完するアダプタとして互いに協力する。トレーニングプロセス中、基礎モデル全体を凍結して、事前知識を継承し、提案したアダプタのみを最適化する。さらに,本フレームワークの有効性を検証するために,Vanilla Vision Transformer (ViT-Base) を事前学習基盤モデルとして利用し,広範囲な実験を行った。様々なRGB-IRダウンストリームタスクに対する実験結果から,本手法が最先端の性能を実現することを示す。ソースコードと結果はhttps://github.com/PoTsui99/UniRGB-IR.gitで公開されている。

関連論文リスト

RGBX-R1: Visual Modality Chain-of-Thought Guided Reinforcement Learning for Multimodal Grounding [69.98331019544166]
MLLM(Multimodal Large Language Models)は主にRGBモダリティに基づいて事前訓練されている。 RGBX-R1はMLLMの知覚と推論能力を高めるためのフレームワークである。
論文参考訳（メタデータ） (2026-01-31T04:13:57Z)
SLGNet: Synergizing Structural Priors and Language-Guided Modulation for Multimodal Object Detection [28.779870703756668]
凍結した視覚変換器(ViT)に基づく基礎モデルにおいて,階層構造と言語誘導変調を相乗化するフレームワークであるSLGNetを提案する。 SLGNetは66.1mAPを実現し、トレーニング可能なパラメータを従来のフル微調整と比較して約87%削減した。
論文参考訳（メタデータ） (2026-01-05T16:31:41Z)
HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。 DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。 3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-09-23T07:32:11Z)
VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文参考訳（メタデータ） (2024-12-28T07:38:23Z)
Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge [11.905387325966311]
本稿では、RGB画像から抽出した新しいデータに、RGB画像に基づいて訓練された大規模な物体検出モデルを適用することに焦点を当てる。モーダリティ変換器 (ModTr) を, 大規模モデルを新しいモーダリティに微調整する一般的な手法の代替として提案する。
論文参考訳（メタデータ） (2024-04-01T21:28:50Z)
Tensor Factorization for Leveraging Cross-Modal Knowledge in Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文参考訳（メタデータ） (2023-09-28T16:55:52Z)
Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文参考訳（メタデータ） (2023-06-17T14:28:08Z)
CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文参考訳（メタデータ） (2023-02-13T07:09:45Z)
Students taught by multimodal teachers are superior action recognizers [41.821485757189656]
エゴセントリックなビデオ理解の焦点は、手動物体の相互作用をモデル化することである。しかし、RGBフレームを入力として受信する標準モデル -- CNN、ビジョントランスフォーマーなど -- は、オブジェクト検出、光フロー、オーディオなどの追加のモダリティを利用することで、そのパフォーマンスがさらに向上する。本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文参考訳（メタデータ） (2022-10-09T19:37:17Z)
A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文参考訳（メタデータ） (2022-10-03T12:08:09Z)
Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-07-07T20:26:09Z)
Self-Supervised Modality-Aware Multiple Granularity Pre-Training for RGB-Infrared Person Re-Identification [9.624510941236837]
Modality-Aware Multiple Granularity Learning (MMGL)は、ImageNetの事前学習に代わる自己教師付き事前学習である。 MMGLはImageNetの事前トレーニングよりも高速なトレーニング速度(数時間で収束)とデータ効率(5%のデータサイズ)で、より良い表現(+6.47% Rank-1)を学習する。結果は、既存のさまざまなモデル、損失をうまく一般化し、データセット間で有望な転送可能性を持つことを示唆している。
論文参考訳（メタデータ） (2021-12-12T04:40:33Z)
Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文参考訳（メタデータ） (2021-12-01T15:53:58Z)
Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文参考訳（メタデータ） (2021-04-23T11:37:15Z)
Self-Supervised Representation Learning for RGB-D Salient Object Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。 RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文参考訳（メタデータ） (2021-01-29T09:16:06Z)
Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。 5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2020-08-26T06:01:05Z)
Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文参考訳（メタデータ） (2020-08-07T10:13:05Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)
Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文参考訳（メタデータ） (2020-07-03T14:24:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。