論文の概要: RGB-X Object Detection via Scene-Specific Fusion Modules
- arxiv url: http://arxiv.org/abs/2310.19372v1
- Date: Mon, 30 Oct 2023 09:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:55:43.326199
- Title: RGB-X Object Detection via Scene-Specific Fusion Modules
- Title(参考訳): シーン特異的融合モジュールによるrgb-xオブジェクト検出
- Authors: Sri Aditya Deevi, Connor Lee, Lu Gan, Sushruth Nagesh, Gaurav Pandey,
and Soon-Jo Chung
- Abstract要約: 本稿では,事前学習した単一モードモデルの活用と融合が可能な,効率的かつモジュール化されたRGB-X融合ネットワークを提案する。
本実験は,RGB-熱的およびRGB-ゲート型データセットにおける既存の研究と比較して,本手法の優位性を実証するものである。
- 参考スコア(独自算出の注目度): 10.583691362114473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal deep sensor fusion has the potential to enable autonomous vehicles
to visually understand their surrounding environments in all weather
conditions. However, existing deep sensor fusion methods usually employ
convoluted architectures with intermingled multimodal features, requiring large
coregistered multimodal datasets for training. In this work, we present an
efficient and modular RGB-X fusion network that can leverage and fuse
pretrained single-modal models via scene-specific fusion modules, thereby
enabling joint input-adaptive network architectures to be created using small,
coregistered multimodal datasets. Our experiments demonstrate the superiority
of our method compared to existing works on RGB-thermal and RGB-gated datasets,
performing fusion using only a small amount of additional parameters. Our code
is available at https://github.com/dsriaditya999/RGBXFusion.
- Abstract(参考訳): マルチモーダル深度センサー融合は、自動運転車が周囲の環境をあらゆる天候下で視覚的に理解することを可能にする可能性がある。
しかし、既存の深層センサー融合法では、通常、統合されたマルチモーダル特徴を持つ畳み込みアーキテクチャを採用しており、トレーニングには大きなコアギスタードマルチモーダルデータセットを必要とする。
本研究では,シーン固有の融合モジュールを介し,事前学習した単一モードモデルの活用と融合が可能な,効率的かつモジュール化されたRGB-X融合ネットワークを提案する。
実験では,rgb-thermalおよびrgb-gatedデータセットにおける既存の手法と比較して,少量の追加パラメータのみを用いて融合を行う方法が優れていることを示す。
私たちのコードはhttps://github.com/dsriaditya999/RGBXFusionで利用可能です。
関連論文リスト
- MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection [10.848413136031025]
RGB-D Salient Object Detection (SOD)の目的は、画像内の最も目立った領域を正確に特定することである。
本稿では,RGB-D SODのためのMamba-driven cross-modal fusion network,MambaSODを提案する。
論文 参考訳(メタデータ) (2024-10-19T07:08:40Z) - SSFam: Scribble Supervised Salient Object Detection Family [13.369217449092524]
Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。
セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。
本モデルでは,異なるモダリティの組み合わせ間の顕著な性能を示し,最高レベルのスクリブル制御手法を更新する。
論文 参考訳(メタデータ) (2024-09-07T13:07:59Z) - Salient Object Detection in RGB-D Videos [11.805682025734551]
本稿では,データセットとモデルという2つの主要なコントリビューションについて述べる。
現実的な深度を持つ新しいRGB-D VSODデータセットであるRDVSデータセットを構築した。
RGB-D VSODに適した3ストリームネットワークであるDCTNet+を紹介する。
論文 参考訳(メタデータ) (2023-10-24T03:18:07Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。