論文の概要: RGB-Multispectral Matching: Dataset, Learning Methodology, Evaluation
- arxiv url: http://arxiv.org/abs/2206.07047v1
- Date: Tue, 14 Jun 2022 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 15:02:49.744269
- Title: RGB-Multispectral Matching: Dataset, Learning Methodology, Evaluation
- Title(参考訳): RGB-Multispectral Matching:データセット,学習方法論,評価
- Authors: Fabio Tosi, Pierluigi Zama Ramirez, Matteo Poggi, Samuele Salti,
Stefano Mattoccia, Luigi Di Stefano
- Abstract要約: ステレオマッチング対応を解くことで,解像度の異なる同期色(RGB)とマルチスペクトル画像(MS)の登録の問題に対処する。
室内環境における13の異なるシーンをフレーミングする新しいRGB-MSデータセットを導入し,34枚の画像対に半高解像度の高解像度の地上トラスラベルを付加したアノテートを行った。
そこで本研究では,RGBカメラを活用した自己指導型ディープラーニングアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 49.28588927121722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of registering synchronized color (RGB) and
multi-spectral (MS) images featuring very different resolution by solving
stereo matching correspondences. Purposely, we introduce a novel RGB-MS dataset
framing 13 different scenes in indoor environments and providing a total of 34
image pairs annotated with semi-dense, high-resolution ground-truth labels in
the form of disparity maps. To tackle the task, we propose a deep learning
architecture trained in a self-supervised manner by exploiting a further RGB
camera, required only during training data acquisition. In this setup, we can
conveniently learn cross-modal matching in the absence of ground-truth labels
by distilling knowledge from an easier RGB-RGB matching task based on a
collection of about 11K unlabeled image triplets. Experiments show that the
proposed pipeline sets a good performance bar (1.16 pixels average registration
error) for future research on this novel, challenging task.
- Abstract(参考訳): ステレオマッチング対応を解くことで,解像度の異なる同期色(RGB)とマルチスペクトル画像(MS)の登録の問題に対処する。
屋内環境において,13の異なるシーンをフレーミングする新しいrgb-msデータセットを導入し,34のイメージペアに半透明で高精細な地中ラベルをアノテートした不一致マップを提供する。
そこで本研究では,トレーニングデータ取得時にのみ必要となる,さらにrgbカメラを活用し,自己監視方式で学習する深層学習アーキテクチャを提案する。
このセットアップでは,約11Kの未ラベル画像三重項の集合に基づいて,より簡単なRGB-RGBマッチングタスクから知識を抽出することにより,地中構造ラベルがない場合のクロスモーダルマッチングを便利に学習することができる。
実験の結果、提案したパイプラインは、この新しい課題に関する将来の研究のために優れた性能バー(1.16ピクセルの平均登録誤差)を設定できることが示されている。
関連論文リスト
- Semantic RGB-D Image Synthesis [22.137419841504908]
この問題に対処するために,意味的RGB-D画像合成を導入する。
しかし、現在のアプローチはユニモーダルであり、マルチモーダルデータには対応できない。
意味的レイアウトのモーダル非依存情報とモーダル依存情報とを分離したマルチモーダルデータのジェネレータを提案する。
論文 参考訳(メタデータ) (2023-08-22T11:16:24Z) - Edge-guided Multi-domain RGB-to-TIR image Translation for Training
Vision Tasks with Challenging Labels [12.701191873813583]
注釈付き熱赤外(TIR)画像データセットの不足は、TIR画像ベースのディープラーニングネットワークを妨害し、RGBと同等の性能を持つ。
本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。
我々は、終点誤差を平均56.5%改善した深部TIR画像に基づく光フロー推定と物体検出の教師あり学習を可能にし、最高の物体検出mAPは23.9%とした。
論文 参考訳(メタデータ) (2023-01-30T06:44:38Z) - Self-Supervised Modality-Aware Multiple Granularity Pre-Training for
RGB-Infrared Person Re-Identification [9.624510941236837]
Modality-Aware Multiple Granularity Learning (MMGL)は、ImageNetの事前学習に代わる自己教師付き事前学習である。
MMGLはImageNetの事前トレーニングよりも高速なトレーニング速度(数時間で収束)とデータ効率(5%のデータサイズ)で、より良い表現(+6.47% Rank-1)を学習する。
結果は、既存のさまざまなモデル、損失をうまく一般化し、データセット間で有望な転送可能性を持つことを示唆している。
論文 参考訳(メタデータ) (2021-12-12T04:40:33Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision [76.41657124981549]
本稿では,画像アライメントとRAW-to-sRGBマッピングのための共同学習モデルを提案する。
実験の結果,本手法はZRRおよびSR-RAWデータセットの最先端に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2021-08-18T12:41:36Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Cross-Modality Paired-Images Generation for RGB-Infrared Person
Re-Identification [29.92261627385826]
本稿では,大域的セットレベルと細粒度インスタンスレベルのアライメントを両立させることを提案する。
本手法は,モダリティに特有な特徴を明示的に除去し,モダリティの変動を低減できる。
我々のモデルはランク1とmAPで9.2%と7.7%を得ることができる。
論文 参考訳(メタデータ) (2020-02-10T22:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。