Fugu-MT 論文翻訳(概要): RTFusion: A depth estimation network based on multimodal fusion in challenging scenarios

論文の概要: RTFusion: A depth estimation network based on multimodal fusion in challenging scenarios

arxiv url: http://arxiv.org/abs/2503.04821v1
Date: Wed, 05 Mar 2025 01:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.69748
Title: RTFusion: A depth estimation network based on multimodal fusion in challenging scenarios
Title（参考訳）: RTFusion:困難シナリオにおけるマルチモーダル融合に基づく深度推定ネットワーク
Authors: Zelin Meng, Takanori Fukao,
Abstract要約: 本稿では,深度推定精度とロバスト性を向上させるマルチモーダル深度推定モデルRTFusionを提案する。このモデルは、相互補完的アライメント(MCA)モジュールからなる独自の融合機構であるEGFusionを組み込んでいる。 MS2およびViViD++データセットの実験では、提案モデルが高品質な深度マップを一貫して生成していることが示されている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Depth estimation in complex real-world scenarios is a challenging task, especially when relying solely on a single modality such as visible light or thermal infrared (THR) imagery. This paper proposes a novel multimodal depth estimation model, RTFusion, which enhances depth estimation accuracy and robustness by integrating the complementary strengths of RGB and THR data. The RGB modality provides rich texture and color information, while the THR modality captures thermal patterns, ensuring stability under adverse lighting conditions such as extreme illumination. The model incorporates a unique fusion mechanism, EGFusion, consisting of the Mutual Complementary Attention (MCA) module for cross-modal feature alignment and the Edge Saliency Enhancement Module (ESEM) to improve edge detail preservation. Comprehensive experiments on the MS2 and ViViD++ datasets demonstrate that the proposed model consistently produces high-quality depth maps across various challenging environments, including nighttime, rainy, and high-glare conditions. The experimental results highlight the potential of the proposed method in applications requiring reliable depth estimation, such as autonomous driving, robotics, and augmented reality.
Abstract（参考訳）: 複雑な実世界のシナリオにおける深さ推定は、特に可視光や熱赤外(THR)画像のような単一のモードのみに依存する場合、難しい作業である。本稿では,RGBデータとTHRデータの相補的強度を統合することで,深度推定精度とロバスト性を向上するマルチモーダル深度推定モデルRTFusionを提案する。 RGBモダリティは豊かなテクスチャと色情報を提供する一方、THRモダリティは熱パターンを捉え、極端に照らされるような悪い照明条件下での安定性を確保する。このモデルには独自の融合機構EGFusionが組み込まれており、Mutual Complementary Attention (MCA)モジュールはクロスモーダルな特徴アライメントのためのものであり、エッジ・サリエンシ・エンハンスメント・モジュール (ESEM) はエッジディテールの保存を改善する。 MS2およびViViD++データセットの総合的な実験により、提案モデルが夜間、雨天、高グラレ条件など、様々な困難な環境における高品質な深度マップを一貫して生成していることが示されている。実験結果は、自律運転、ロボット工学、拡張現実など、信頼性の高い深度推定を必要とするアプリケーションにおける提案手法の可能性を強調した。

関連論文リスト

Adaptive Stereo Depth Estimation with Multi-Spectral Images Across All Lighting Conditions [58.88917836512819]
本稿では,立体深度推定を取り入れた新しいフレームワークを提案し,正確な幾何学的制約を強制する。照明の劣化がステレオマッチングに与える影響を軽減するために,劣化マスキングを導入する。提案手法は,Multi-Spectral Stereo(MS2)データセット上でのSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2024-11-06T03:30:46Z)
Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-11T09:12:24Z)
Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文参考訳（メタデータ） (2024-02-19T04:39:16Z)
Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM [58.736472371951955]
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3成分式不透明度モデルを導入する。これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。 TTとHOの統合アプローチは,合成および実世界のデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-12-20T18:03:17Z)
RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文参考訳（メタデータ） (2023-09-30T11:25:34Z)
Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文参考訳（メタデータ） (2023-07-28T04:36:07Z)
Symmetric Uncertainty-Aware Feature Transmission for Depth Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。本手法は最先端の手法と比較して優れた性能を実現する。
論文参考訳（メタデータ） (2023-06-01T06:35:59Z)
Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文参考訳（メタデータ） (2022-10-09T13:50:12Z)
Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-07-07T20:26:09Z)
Joint Learning of Salient Object Detection, Depth Estimation and Contour Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文参考訳（メタデータ） (2022-03-09T17:20:18Z)
Unpaired Single-Image Depth Synthesis with cycle-consistent Wasserstein GANs [1.0499611180329802]
実環境深度のリアルタイム推定は、様々な自律システムタスクにとって必須のモジュールである。本研究では、生成型ニューラルネットワークの分野における最近の進歩を、教師なしの単一画像深度合成に活用する。
論文参考訳（メタデータ） (2021-03-31T09:43:38Z)
Deep RGB-D Saliency Detection with Depth-Sensitive Attention and Automatic Multi-Modal Fusion [15.033234579900657]
RGB-Dサラエントオブジェクト検出(SOD)は通常、2つのモダリティ、すなわちRGBと深さの分類または回帰の問題として定式化される。本稿では,salient objectsの奥行き方向幾何学的前置を用いた深さ感応型rgb特徴モデリング手法を提案する。 7つの標準ベンチマークに関する実験は、最先端技術に対する提案手法の有効性を示している。
論文参考訳（メタデータ） (2021-03-22T13:28:45Z)
Learning Selective Mutual Attention and Contrast for RGB-D Saliency Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文参考訳（メタデータ） (2020-10-12T08:50:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。