論文の概要: You Only Need One Detector: Unified Object Detector for Different
Modalities based on Vision Transformers
- arxiv url: http://arxiv.org/abs/2207.01071v1
- Date: Sun, 3 Jul 2022 16:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 08:17:39.740403
- Title: You Only Need One Detector: Unified Object Detector for Different
Modalities based on Vision Transformers
- Title(参考訳): 1つの検出器だけ - 視覚トランスフォーマーに基づく異なるモダリティのための統一オブジェクト検出器
- Authors: Xiaoke Shen, Zhujun Li, Jaime Canizales, Ioannis Stamos
- Abstract要約: 我々は、視覚変換器とクロス/インターモーダル変換学習を併用することにより、異なるモーダルを入力として使用する場合に、統一検出器がより良い性能を得られることを発見した。
ロボット工学の統一システムの1つの応用シナリオは、モデルアーキテクチャとモデルウェイトが更新されない場合、ロボット工学は、RGBカメラまたはRGBとDepth Sensorの両方を昼間に使用することで、スムーズに切り替えることができる。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most systems use different models for different modalities, such as one model
for processing RGB images and one for depth images. Meanwhile, some recent
works discovered that an identical model for one modality can be used for
another modality with the help of cross modality transfer learning. In this
article, we further find out that by using a vision transformer together with
cross/inter modality transfer learning, a unified detector can achieve better
performances when using different modalities as inputs. The unified model is
useful as we don't need to maintain separate models or weights for robotics,
hence, it is more efficient. One application scenario of our unified system for
robotics can be: without any model architecture and model weights updating,
robotics can switch smoothly on using RGB camera or both RGB and Depth Sensor
during the day time and Depth sensor during the night time .
Experiments on SUN RGB-D dataset show: Our unified model is not only
efficient, but also has a similar or better performance in terms of mAP50 based
on SUNRGBD16 category: compare with the RGB only one, ours is slightly worse
(52.3 $\to$ 51.9). compare with the point cloud only one, we have similar
performance (52.7 $\to$ 52.8); When using the novel inter modality mixing
method proposed in this work, our model can achieve a significantly better
performance with 3.1 (52.7 $\to$ 55.8) absolute improvement comparing with the
previous best result. Code (including training/inference logs and model
checkpoints) is available: \url{https://github.com/liketheflower/YONOD.git}
- Abstract(参考訳): ほとんどのシステムは、RGB画像を処理する1つのモデルや深度画像を処理する1つのモデルなど、異なるモダリティのために異なるモデルを使用する。
一方、近年の研究では、あるモダリティの同一モデルが、相互モダリティ変換学習の助けを借りて、別のモダリティに使用できることが判明している。
本稿では,視覚トランスフォーマーと相互モダリティ伝達学習を組み合わせることで,異なるモダリティを入力として使用する場合,統一検出器の性能向上が期待できることを示す。
統一モデルは、ロボット工学のための別々のモデルや重量を維持する必要がないため、より効率的です。
ロボット工学のための統一システムの一つの応用シナリオは、 モデルアーキテクチャとモデル重みの更新がなければ、ロボット工学は、昼と夜の間にrgbカメラまたはrgbと深度センサーの両方を使用してスムーズに切り替えることができる。
SUN RGB-Dデータセットの実験によると、 我々の統一モデルは効率的であるだけでなく、SUNRGBD16カテゴリに基づくmAP50の類似またはより良い性能を持つ。
この研究で提案された新しい相互モダリティ混合法を使用する場合、我々のモデルは3.1 (52.7$\to$55.8) の絶対的な性能向上を以前の最良の結果と比較して達成できる。
コード(トレーニング/推論ログとモデルチェックポイントを含む)は以下の通りである。
関連論文リスト
- MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection [12.462709547836289]
可視光(RGB)や赤外線(IR)のような複数のモードを使用することで、オブジェクト検出(OD)のような予測タスクの性能を大幅に向上させることができる。
本稿では,RGB と IR のモダリティの異なる手法に取り組み,一方のモダリティと他方のモダリティのみを1つの共有ビジョンエンコーダで観測する。
本研究では、RGBとIRのモダリティを効率よく活用して、共通トランスフォーマーベースのODビジョンエンコーダをトレーニングし、モダリティの不均衡の影響に対処する方法について検討する。
論文 参考訳(メタデータ) (2024-04-29T16:42:58Z) - Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge [11.905387325966311]
本稿では、RGB画像から抽出した新しいデータに、RGB画像に基づいて訓練された大規模な物体検出モデルを適用することに焦点を当てる。
モーダリティ変換器 (ModTr) を, 大規模モデルを新しいモーダリティに微調整する一般的な手法の代替として提案する。
論文 参考訳(メタデータ) (2024-04-01T21:28:50Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。
提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。
提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-30T11:25:34Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Students taught by multimodal teachers are superior action recognizers [41.821485757189656]
エゴセントリックなビデオ理解の焦点は、手動物体の相互作用をモデル化することである。
しかし、RGBフレームを入力として受信する標準モデル -- CNN、ビジョントランスフォーマーなど -- は、オブジェクト検出、光フロー、オーディオなどの追加のモダリティを利用することで、そのパフォーマンスがさらに向上する。
本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2022-10-09T19:37:17Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。