論文の概要: Attentive Multimodal Fusion for Optical and Scene Flow
- arxiv url: http://arxiv.org/abs/2307.15301v1
- Date: Fri, 28 Jul 2023 04:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 13:42:54.806472
- Title: Attentive Multimodal Fusion for Optical and Scene Flow
- Title(参考訳): 光とシーンフローのための注意型マルチモーダル融合
- Authors: Youjie Zhou, Guofeng Mei, Yiming Wang, Fabio Poiesi, Yi Wan
- Abstract要約: 既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
- 参考スコア(独自算出の注目度): 24.08052492109655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an investigation into the estimation of optical and scene
flow using RGBD information in scenarios where the RGB modality is affected by
noise or captured in dark environments. Existing methods typically rely solely
on RGB images or fuse the modalities at later stages, which can result in lower
accuracy when the RGB information is unreliable. To address this issue, we
propose a novel deep neural network approach named FusionRAFT, which enables
early-stage information fusion between sensor modalities (RGB and depth). Our
approach incorporates self- and cross-attention layers at different network
levels to construct informative features that leverage the strengths of both
modalities. Through comparative experiments, we demonstrate that our approach
outperforms recent methods in terms of performance on the synthetic dataset
Flyingthings3D, as well as the generalization on the real-world dataset KITTI.
We illustrate that our approach exhibits improved robustness in the presence of
noise and low-lighting conditions that affect the RGB images. We release the
code, models and dataset at https://github.com/jiesico/FusionRAFT.
- Abstract(参考訳): 本稿では,RGBのモダリティが雑音の影響を受け,暗黒環境下で捕獲された場合のRGBD情報を用いた光学的およびシーンフローの推定について検討する。
既存の手法は、通常、RGB画像のみに依存するか、後段のモダリティを融合させるため、RGB情報が信頼できない場合の精度が低下する可能性がある。
この問題に対処するため,我々はFusionRAFTという新しいディープニューラルネットワークアプローチを提案し,センサモード(RGBとDepth)の早期情報融合を可能にする。
当社のアプローチでは,異なるネットワークレベルでの自己および横断的なレイヤを組み込んで,両モードの強みを活用した情報的特徴を構築する。
比較実験により,本手法は,合成データセットFlyingthings3Dの性能および実世界のデータセットKITTIの一般化において,最近の手法よりも優れていることを示した。
提案手法は,RGB画像に影響を及ぼす雑音や低照度条件の存在下での堅牢性の向上を示す。
コード、モデル、データセットはhttps://github.com/jiesico/FusionRAFT.comで公開しています。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - NIR-Assisted Image Denoising: A Selective Fusion Approach and A Real-World Benchmark Dataset [53.79524776100983]
近赤外(NIR)画像を活用して、視認可能なRGB画像の復調を支援することで、この問題に対処する可能性を示している。
既存の作品では、NIR情報を効果的に活用して現実のイメージを飾ることに苦戦している。
先進デノナイジングネットワークにプラグイン・アンド・プレイ可能な効率的な選択核融合モジュール(SFM)を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:54:26Z) - RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical
Flow and Scene Flow Estimation [43.358140897849616]
本稿では,RGB画像,ポイント雲,イベントを多段階多モード融合モデルであるRPEFlowに組み込む。
合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。
論文 参考訳(メタデータ) (2023-09-26T17:23:55Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Consistent Depth Prediction under Various Illuminations using Dilated
Cross Attention [1.332560004325655]
我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを作成することを提案する。
異なる照明条件下での深度予測の整合性を維持するため,これらの拡張された特徴に横断的な注意を払っている。
提案手法は,Variデータセットの最先端手法との比較により評価され,実験で有意な改善が見られた。
論文 参考訳(メタデータ) (2021-12-15T10:02:46Z) - Wild ToFu: Improving Range and Quality of Indirect Time-of-Flight Depth
with RGB Fusion in Challenging Environments [56.306567220448684]
本稿では,ノイズの多い生のI-ToF信号とRGB画像を用いた学習に基づくエンド・ツー・エンドの深度予測ネットワークを提案する。
最終深度マップでは,ベースラインアプローチと比較して40%以上のRMSE改善が見られた。
論文 参考訳(メタデータ) (2021-12-07T15:04:14Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。