論文の概要: HalluciDet: Hallucinating RGB Modality for Person Detection Through
Privileged Information
- arxiv url: http://arxiv.org/abs/2310.04662v1
- Date: Sat, 7 Oct 2023 03:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 16:58:13.862874
- Title: HalluciDet: Hallucinating RGB Modality for Person Detection Through
Privileged Information
- Title(参考訳): HalluciDet: 限定情報による人物検出のためのRGBモダリティの幻覚
- Authors: Heitor Rapela Medeiros, Fidel A. Guerrero Pena, Masih Aminbeidokhti,
Thomas Dubail, Eric Granger, Marco Pedersoli
- Abstract要約: 視覚認識モデルを新しい領域に適応させる強力な方法は、画像翻訳である。
本稿では,物体検出のためのIR-RGB画像変換モデルであるHaluciDetを提案する。
提案手法は,事前学習したRGB検出器に符号化された特権情報を利用して,ほとんどのケースにおいて検出精度を向上させる。
- 参考スコア(独自算出の注目度): 13.114457707388283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A powerful way to adapt a visual recognition model to a new domain is through
image translation. However, common image translation approaches only focus on
generating data from the same distribution of the target domain. In visual
recognition tasks with complex images, such as pedestrian detection on aerial
images with a large cross-modal shift in data distribution from Infrared (IR)
to RGB images, a translation focused on generation might lead to poor
performance as the loss focuses on irrelevant details for the task. In this
paper, we propose HalluciDet, an IR-RGB image translation model for object
detection that, instead of focusing on reconstructing the original image on the
IR modality, is guided directly on reducing the detection loss of an RGB
detector, and therefore avoids the need to access RGB data. This model produces
a new image representation that enhances the object of interest in the scene
and greatly improves detection performance. We empirically compare our approach
against state-of-the-art image translation methods as well as with the commonly
used fine-tuning on IR, and show that our method improves detection accuracy in
most cases, by exploiting the privileged information encoded in a pre-trained
RGB detector.
- Abstract(参考訳): 視覚認識モデルを新しい領域に適応させる強力な方法は、画像翻訳である。
しかし、一般的な画像変換手法は、対象領域の同じ分布からデータを生成することのみに焦点を当てる。
Infrared (IR) から RGB 画像へのデータ配信において, 空中画像上での歩行者検出などの複雑な画像を用いた視覚的認識タスクでは, 生成に焦点を絞った翻訳は, タスクの無関係な詳細に焦点が当てられるため, 性能が低下する可能性がある。
本稿では,オブジェクト検出のためのir-rgb画像変換モデルであるhallucidetを提案する。原画像のirモードの再構築に重点を置く代わりに,rgb検出器の検出損失の低減を直接指導することで,rgbデータへのアクセスを回避できる。
このモデルは、シーンに対する関心を増し、検出性能を大幅に改善する新しい画像表現を生成する。
提案手法は,既存の画像翻訳手法とIRの微調整法とを実証的に比較し,事前学習したRGB検出器に符号化された特権情報を活用することにより,ほとんどの場合において検出精度を向上させることを示す。
関連論文リスト
- Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge [11.905387325966311]
本稿では、RGB画像から抽出した新しいデータに、RGB画像に基づいて訓練された大規模な物体検出モデルを適用することに焦点を当てる。
モーダリティ変換器 (ModTr) を, 大規模モデルを新しいモーダリティに微調整する一般的な手法の代替として提案する。
論文 参考訳(メタデータ) (2024-04-01T21:28:50Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - Edge-guided Multi-domain RGB-to-TIR image Translation for Training
Vision Tasks with Challenging Labels [12.701191873813583]
注釈付き熱赤外(TIR)画像データセットの不足は、TIR画像ベースのディープラーニングネットワークを妨害し、RGBと同等の性能を持つ。
本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。
我々は、終点誤差を平均56.5%改善した深部TIR画像に基づく光フロー推定と物体検出の教師あり学習を可能にし、最高の物体検出mAPは23.9%とした。
論文 参考訳(メタデータ) (2023-01-30T06:44:38Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - Visible-Infrared Person Re-Identification Using Privileged Intermediate
Information [10.816003787786766]
クロスモーダルな人物再識別(ReID)は、RGBとIRモダリティ間のデータ分散の大きなドメインシフトのために困難である。
本稿では2つのメインドメイン間のブリッジとして機能する中間仮想ドメインを作成するための新しいアプローチを提案する。
我々は、深いReIDモデルをトレーニングするための追加情報を提供する、可視領域と赤外線領域間の画像を生成する新しい手法を考案した。
論文 参考訳(メタデータ) (2022-09-19T21:08:14Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision [76.41657124981549]
本稿では,画像アライメントとRAW-to-sRGBマッピングのための共同学習モデルを提案する。
実験の結果,本手法はZRRおよびSR-RAWデータセットの最先端に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2021-08-18T12:41:36Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。