Fugu-MT 論文翻訳(概要): MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection

論文の概要: MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection

arxiv url: http://arxiv.org/abs/2404.18849v2
Date: Fri, 2 Aug 2024 16:13:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 18:03:40.603903
Title: MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection
Title（参考訳）: MiPa:Mixed Patch Infrared-VisibleModality Agnostic Object Detection
Authors: Heitor R. Medeiros, David Latortue, Eric Granger, Marco Pedersoli,
Abstract要約: 可視光(RGB)や赤外線(IR)のような複数のモードを使用することで、オブジェクト検出(OD)のような予測タスクの性能を大幅に向上させることができる。本稿では,RGB と IR のモダリティの異なる手法に取り組み,一方のモダリティと他方のモダリティのみを1つの共有ビジョンエンコーダで観測する。本研究では、RGBとIRのモダリティを効率よく活用して、共通トランスフォーマーベースのODビジョンエンコーダをトレーニングし、モダリティの不均衡の影響に対処する方法について検討する。
参考スコア（独自算出の注目度）: 12.462709547836289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In real-world scenarios, using multiple modalities like visible (RGB) and infrared (IR) can greatly improve the performance of a predictive task such as object detection (OD). Multimodal learning is a common way to leverage these modalities, where multiple modality-specific encoders and a fusion module are used to improve performance. In this paper, we tackle a different way to employ RGB and IR modalities, where only one modality or the other is observed by a single shared vision encoder. This realistic setting requires a lower memory footprint and is more suitable for applications such as autonomous driving and surveillance, which commonly rely on RGB and IR data. However, when learning a single encoder on multiple modalities, one modality can dominate the other, producing uneven recognition results. This work investigates how to efficiently leverage RGB and IR modalities to train a common transformer-based OD vision encoder, while countering the effects of modality imbalance. For this, we introduce a novel training technique to Mix Patches (MiPa) from the two modalities, in conjunction with a patch-wise modality agnostic module, for learning a common representation of both modalities. Our experiments show that MiPa can learn a representation to reach competitive results on traditional RGB/IR benchmarks while only requiring a single modality during inference. Our code is available at: https://github.com/heitorrapela/MiPa.
Abstract（参考訳）: 現実のシナリオでは、可視光(RGB)や赤外線(IR)のような複数のモードを使用することで、オブジェクト検出(OD)のような予測タスクの性能を大幅に向上させることができる。マルチモーダル学習は、これらのモダリティを活用する一般的な方法であり、複数のモダリティ固有のエンコーダと融合モジュールを用いて性能を向上させる。本稿では、RGBとIRのモダリティを1つの共有ビジョンエンコーダによって1つのモダリティまたはもう1つのモダリティのみを観測する別の方法に取り組む。この現実的な設定はメモリフットプリントが低く、RGBやIRデータに依存する自律運転や監視といったアプリケーションに適している。しかし、1つのエンコーダを複数のモダリティで学習すると、一方のモダリティが他方を支配し、不均一な認識結果を生み出す。本研究では、RGBとIRのモダリティを効率よく活用して、共通トランスフォーマーベースのODビジョンエンコーダをトレーニングし、モダリティの不均衡の影響に対処する方法について検討する。そこで本研究では,2つのモダリティの共通表現を学習するために,パッチワイドなモダリティ非依存モジュールと組み合わせたMiPa(MiPa)の新たなトレーニング手法を提案する。我々の実験は、MiPaが従来のRGB/IRベンチマークで競合する結果に到達するための表現を学習できることを示し、推論中に単一のモダリティしか必要としないことを示した。私たちのコードは、https://github.com/heitorrapela/MiPa.comで利用可能です。

関連論文リスト

UNIV: Unified Foundation Model for Infrared and Visible Modalities [12.0490466425884]
Infrared and Visible modalities(UNIV)のための生物学的に着想を得た統一基盤モデルを提案する。 PCCLは、網膜水平細胞の側方抑制を模倣する注意誘導蒸留フレームワークである。我々の二重知識保存機構は網膜の双極性細胞シグナルルーティングをエミュレートする。
論文参考訳（メタデータ） (2025-09-19T06:07:53Z)
Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文参考訳（メタデータ） (2025-06-30T15:38:26Z)
Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文参考訳（メタデータ） (2025-04-08T09:14:24Z)
XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文参考訳（メタデータ） (2024-05-28T03:00:58Z)
UniRGB-IR: A Unified Framework for RGB-Infrared Semantic Tasks via Adapter Tuning [17.36726475620881]
我々は、RGB-IRセマンティックタスクを統合するために、UniRGB-IRと呼ばれる汎用的で効率的なフレームワークを提案する。よりリッチなRGB-IR機能を事前学習基盤モデルに効率的に導入する新しいアダプタを開発した。様々なRGB-IRダウンストリームタスクに対する実験結果から,本手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2024-04-26T12:21:57Z)
Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge [11.905387325966311]
本稿では、RGB画像から抽出した新しいデータに、RGB画像に基づいて訓練された大規模な物体検出モデルを適用することに焦点を当てる。モーダリティ変換器 (ModTr) を, 大規模モデルを新しいモーダリティに微調整する一般的な手法の代替として提案する。
論文参考訳（メタデータ） (2024-04-01T21:28:50Z)
Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文参考訳（メタデータ） (2023-12-17T05:27:31Z)
CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文参考訳（メタデータ） (2023-02-13T07:09:45Z)
Students taught by multimodal teachers are superior action recognizers [41.821485757189656]
エゴセントリックなビデオ理解の焦点は、手動物体の相互作用をモデル化することである。しかし、RGBフレームを入力として受信する標準モデル -- CNN、ビジョントランスフォーマーなど -- は、オブジェクト検出、光フロー、オーディオなどの追加のモダリティを利用することで、そのパフォーマンスがさらに向上する。本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文参考訳（メタデータ） (2022-10-09T19:37:17Z)
A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文参考訳（メタデータ） (2022-10-03T12:08:09Z)
Unified Object Detector for Different Modalities based on Vision Transformers [1.14219428942199]
我々は様々なモードで優れた性能を実現する統一検出器を開発した。我々の研究は、RGBカメラと深度センサーをシームレスに切り替えるロボット工学の応用シナリオを思い描いている。我々は,SUN RGB-Dデータセット上での統一モデルの評価を行い,mAP50で類似あるいは良好な性能が得られることを示す。
論文参考訳（メタデータ） (2022-07-03T16:01:04Z)
Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。 5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文参考訳（メタデータ） (2022-06-07T08:35:41Z)
Flexible-Modal Face Anti-Spoofing: A Benchmark [66.18359076810549]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。第一のフレキシブル・モーダルなFASベンチマークを原則として確立しました。また、フレキシブルモーダルFASのための一般的な深層モデルと特徴融合戦略についても検討する。
論文参考訳（メタデータ） (2022-02-16T16:55:39Z)
Self-Supervised Representation Learning for RGB-D Salient Object Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。 RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文参考訳（メタデータ） (2021-01-29T09:16:06Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。