論文の概要: Translate to Adapt: RGB-D Scene Recognition across Domains
- arxiv url: http://arxiv.org/abs/2103.14672v1
- Date: Fri, 26 Mar 2021 18:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:42:08.407051
- Title: Translate to Adapt: RGB-D Scene Recognition across Domains
- Title(参考訳): 適応への翻訳:ドメイン間のRGB-Dシーン認識
- Authors: Andrea Ferreri and Silvia Bucci and Tatiana Tommasi
- Abstract要約: 本研究では,マルチモーダルシーン認識データセット内に,潜在的に深刻なドメインシフト問題が存在することを注目する。
本稿では,異なるカメラ領域にまたがって適応可能な自己教師付きモダリティ間翻訳法を提案する。
- 参考スコア(独自算出の注目度): 18.40373730109694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene classification is one of the basic problems in computer vision research
with extensive applications in robotics. When available, depth images provide
helpful geometric cues that complement the RGB texture information and help to
identify more discriminative scene image features. Depth sensing technology
developed fast in the last years and a great variety of 3D cameras have been
introduced, each with different acquisition properties. However, when targeting
big data collections, often multi-modal images are gathered disregarding their
original nature. In this work we put under the spotlight the existence of a
possibly severe domain shift issue within multi-modality scene recognition
datasets. We design an experimental testbed to study this problem and present a
method based on self-supervised inter-modality translation able to adapt across
different camera domains. Our extensive experimental analysis confirms the
effectiveness of the proposed approach.
- Abstract(参考訳): シーン分類はコンピュータビジョン研究における基本的な問題の一つであり、ロボット工学に広く応用されている。
利用可能な場合、深度画像はRGBテクスチャ情報を補完する有用な幾何学的手がかりを提供し、より識別可能なシーン画像の特徴を特定するのに役立つ。
深度センサー技術はここ数年で急速に発展し、様々な3dカメラが導入され、それぞれが異なる買収特性を持つ。
しかし、ビッグデータコレクションをターゲットとする場合には、その本来の性質を無視したマルチモーダルイメージが収集されることが多い。
本研究では,マルチモーダルシーン認識データセット内に,潜在的に深刻なドメインシフト問題が存在することを注目する。
本研究では,この問題を調査するための実験台を設計し,異なるカメラ領域にまたがって適応可能な自己教師付きモダリティ間翻訳法を提案する。
提案手法の有効性を実験的に検証した。
関連論文リスト
- 3D Multimodal Image Registration for Plant Phenotyping [0.6697966247860049]
植物フェノタイピングのための複合マルチモーダルモニタリングシステムにおける複数のカメラ技術の利用は、有望な利益をもたらす。
クロスモーダルパターンの有効利用は、ピクセル・正確なアライメントを実現するために、正確な画像登録に依存する。
本稿では,飛行時間カメラからの深度情報を登録プロセスに統合することにより,これらの課題に対処する新しいマルチモーダル3D画像登録手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T09:29:46Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - A Multi-modal Approach to Single-modal Visual Place Classification [2.580765958706854]
RGBと深度(D)を組み合わせたマルチセンサー融合アプローチが近年人気を集めている。
単一モードRGB画像分類タスクを擬似多モードRGB-D分類問題として再構成する。
これら2つのモダリティを適切に処理し、融合し、分類するための、実践的で完全に自己管理されたフレームワークについて説明する。
論文 参考訳(メタデータ) (2023-05-10T14:04:21Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Multimodal Across Domains Gaze Target Detection [18.41238482101682]
本稿では,3人称視点から捉えた単一画像における視線目標検出問題に対処する。
シーン内の人物が見ている場所を推測するために,マルチモーダルなディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-23T09:09:00Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。