論文の概要: A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers
- arxiv url: http://arxiv.org/abs/2210.00843v1
- Date: Mon, 3 Oct 2022 12:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 17:03:21.923244
- Title: A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers
- Title(参考訳): ビジョントランスにおけるRGB-D融合のための強転写ベースライン
- Authors: Georgios Tziafas, Hamidreza Kasaei
- Abstract要約: 単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Vision Transformer (ViT) architecture has recently established its place
in the computer vision literature, with multiple architectures for recognition
of image data or other visual modalities. However, training ViTs for RGB-D
object recognition remains an understudied topic, viewed in recent literature
only through the lens of multi-task pretraining in multiple modalities. Such
approaches are often computationally intensive and have not yet been applied
for challenging object-level classification tasks. In this work, we propose a
simple yet strong recipe for transferring pretrained ViTs in RGB-D domains for
single-view 3D object recognition, focusing on fusing RGB and depth
representations encoded jointly by the ViT. Compared to previous works in
multimodal Transformers, the key challenge here is to use the atested
flexibility of ViTs to capture cross-modal interactions at the downstream and
not the pretraining stage. We explore which depth representation is better in
terms of resulting accuracy and compare two methods for injecting RGB-D fusion
within the ViT architecture (i.e., early vs. late fusion). Our results in the
Washington RGB-D Objects dataset demonstrates that in such RGB $\rightarrow$
RGB-D scenarios, late fusion techniques work better than most popularly
employed early fusion. With our transfer baseline, adapted ViTs score up to
95.1\% top-1 accuracy in Washington, achieving new state-of-the-art results in
this benchmark. We additionally evaluate our approach with an open-ended
lifelong learning protocol, where we show that our adapted RGB-D encoder leads
to features that outperform unimodal encoders, even without explicit
fine-tuning. We further integrate our method with a robot framework and
demonstrate how it can serve as a perception utility in an interactive robot
learning scenario, both in simulation and with a real robot.
- Abstract(参考訳): 視覚トランスフォーマー(vit)アーキテクチャは、画像データや他の視覚モダリティを認識するための複数のアーキテクチャを備えたコンピュータビジョン文学において、最近その地位を確立した。
しかし、RGB-Dオブジェクト認識のためのトレーニング用ViTは、近年の文献では複数のモードでマルチタスク事前学習のレンズを通してのみ見られる、未検討のトピックである。
このようなアプローチはしばしば計算集約的であり、オブジェクトレベルの分類タスクにはまだ適用されていない。
本稿では,single-view 3dオブジェクト認識のためのrgb-dドメインで事前学習されたvitを,vitで符号化された奥行き表現とrgbを融合させることに焦点をあてた,簡易かつ強力なvit転送法を提案する。
従来のマルチモーダルトランスフォーマーと比較して、重要な課題は、VTの証明された柔軟性を使って、下流でのクロスモーダルなインタラクションを、事前学習の段階ではなく捉えることである。
奥行き表現の精度について検討し,vitアーキテクチャ(初期核融合と後期核融合)内でrgb-d核融合を行う2つの方法を比較した。
私たちがWashington RGB-D Objectsデータセットで行った結果は、そのようなRGB $\rightarrow$ RGB-Dのシナリオでは、後期核融合技術は一般的な初期の核融合よりもうまく機能することを示した。
当社のトランスファーベースラインでは、適応vitsはワシントン州で最大95.1\%のtop-1精度を獲得し、このベンチマークで最新の結果を得た。
我々はまた、我々のアプローチを、オープンな生涯学習プロトコルで評価し、適応されたRGB-Dエンコーダが、明示的な微調整なしでも、アンモダールエンコーダよりも優れた特徴をもたらすことを示した。
さらに,本手法をロボットフレームワークと統合し,シミュレーションと実ロボットの両方において,対話型ロボット学習シナリオにおいて認識ユーティリティとして機能することを示す。
関連論文リスト
- Rethinking RGB-D Fusion for Semantic Segmentation in Surgical Datasets [5.069884983892437]
本稿では,SurgDepth という,シンプルで効果的なマルチモーダル(RGBと深さ)トレーニングフレームワークを提案する。
このタスクに適用可能なすべての公開データセットに対して、最先端(SOTA)結果を示す。
ベンチマークデータセットには、EndoVis2022、AutoLapro、LapI2I、EndoVis 2017などの広範な実験を行っている。
論文 参考訳(メタデータ) (2024-07-29T05:35:51Z) - Efficient Multi-Task Scene Analysis with RGB-D Transformers [7.9011213682805215]
本稿では,RGB-D Transformer をベースとしたエンコーダを用いたマルチタスクシーン解析手法 EMSAFormer を提案する。
提案手法では,NVIDIA Jetson AGX Orin 32GB上で39.1 FPSの推論が可能でありながら,最先端の性能を実現している。
論文 参考訳(メタデータ) (2023-06-08T14:41:56Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Unified Object Detector for Different Modalities based on Vision
Transformers [1.14219428942199]
我々は様々なモードで優れた性能を実現する統一検出器を開発した。
我々の研究は、RGBカメラと深度センサーをシームレスに切り替えるロボット工学の応用シナリオを思い描いている。
我々は,SUN RGB-Dデータセット上での統一モデルの評価を行い,mAP50で類似あるいは良好な性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-03T16:01:04Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。