論文の概要: Unified Object Detector for Different Modalities based on Vision
Transformers
- arxiv url: http://arxiv.org/abs/2207.01071v2
- Date: Fri, 5 May 2023 23:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:43:30.758277
- Title: Unified Object Detector for Different Modalities based on Vision
Transformers
- Title(参考訳): 視覚トランスフォーマーに基づく異なるモダリティのための統一物体検出器
- Authors: Xiaoke Shen and Ioannis Stamos
- Abstract要約: 我々は様々なモードで優れた性能を実現する統一検出器を開発した。
我々の研究は、RGBカメラと深度センサーをシームレスに切り替えるロボット工学の応用シナリオを思い描いている。
我々は,SUN RGB-Dデータセット上での統一モデルの評価を行い,mAP50で類似あるいは良好な性能が得られることを示す。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional systems typically require different models for processing
different modalities, such as one model for RGB images and another for depth
images. Recent research has demonstrated that a single model for one modality
can be adapted for another using cross-modality transfer learning. In this
paper, we extend this approach by combining cross/inter-modality transfer
learning with a vision transformer to develop a unified detector that achieves
superior performance across diverse modalities. Our research envisions an
application scenario for robotics, where the unified system seamlessly switches
between RGB cameras and depth sensors in varying lighting conditions.
Importantly, the system requires no model architecture or weight updates to
enable this smooth transition. Specifically, the system uses the depth sensor
during low-lighting conditions (night time) and both the RGB camera and depth
sensor or RGB caemra only in well-lit environments. We evaluate our unified
model on the SUN RGB-D dataset, and demonstrate that it achieves similar or
better performance in terms of mAP50 compared to state-of-the-art methods in
the SUNRGBD16 category, and comparable performance in point cloud only mode. We
also introduce a novel inter-modality mixing method that enables our model to
achieve significantly better results than previous methods. We provide our
code, including training/inference logs and model checkpoints, to facilitate
reproducibility and further research.
\url{https://github.com/liketheflower/UODDM}
- Abstract(参考訳): 従来のシステムでは、rgb画像のモデルや深度画像のモデルなど、異なるモダリティを処理するために異なるモデルが必要となる。
近年の研究では、ひとつのモダリティに対する単一モデルが、クロスモダリティ転送学習を用いて別のモダリティに適応できることが示されている。
本稿では,クロス・インターモダリティ伝達学習と視覚トランスフォーマーを組み合わせることで,多様なモダリティにまたがる優れた性能を実現する統一検出器を開発することにより,このアプローチを拡張する。
本研究では,照明条件の異なるrgbカメラと深度センサをシームレスに切り替えるロボット工学の応用シナリオについて考察する。
重要なのは、このスムーズな移行を可能にするために、システムはモデルアーキテクチャや重み付け更新を必要としないことだ。
具体的には、低照度(夜間)に深度センサーを使用し、RGBカメラと深度センサーとRGBカエマの両方を、明るい環境でのみ使用する。
我々は,SUN RGB-Dデータセット上での統一モデルの評価を行い,SUNRGBD16カテゴリの最先端手法と比較して,mAP50と同等あるいは優れた性能を示し,点クラウドのみのモードで同等の性能を示した。
また,従来の手法よりもはるかに優れた結果が得られる新しいモード間混合手法を提案する。
再現性とさらなる研究を容易にするために、トレーニング/会議ログやモデルのチェックポイントを含むコードを提供します。
\url{https://github.com/liketheflower/UODDM}
関連論文リスト
- MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection [12.462709547836289]
可視光(RGB)や赤外線(IR)のような複数のモードを使用することで、オブジェクト検出(OD)のような予測タスクの性能を大幅に向上させることができる。
本稿では,RGB と IR のモダリティの異なる手法に取り組み,一方のモダリティと他方のモダリティのみを1つの共有ビジョンエンコーダで観測する。
本研究では、RGBとIRのモダリティを効率よく活用して、共通トランスフォーマーベースのODビジョンエンコーダをトレーニングし、モダリティの不均衡の影響に対処する方法について検討する。
論文 参考訳(メタデータ) (2024-04-29T16:42:58Z) - Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge [11.905387325966311]
本稿では、RGB画像から抽出した新しいデータに、RGB画像に基づいて訓練された大規模な物体検出モデルを適用することに焦点を当てる。
モーダリティ変換器 (ModTr) を, 大規模モデルを新しいモーダリティに微調整する一般的な手法の代替として提案する。
論文 参考訳(メタデータ) (2024-04-01T21:28:50Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。
提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。
提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-30T11:25:34Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Students taught by multimodal teachers are superior action recognizers [41.821485757189656]
エゴセントリックなビデオ理解の焦点は、手動物体の相互作用をモデル化することである。
しかし、RGBフレームを入力として受信する標準モデル -- CNN、ビジョントランスフォーマーなど -- は、オブジェクト検出、光フロー、オーディオなどの追加のモダリティを利用することで、そのパフォーマンスがさらに向上する。
本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2022-10-09T19:37:17Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。