論文の概要: Leveraging Depth Maps and Attention Mechanisms for Enhanced Image Inpainting
- arxiv url: http://arxiv.org/abs/2505.00735v2
- Date: Thu, 08 May 2025 04:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 13:13:47.79106
- Title: Leveraging Depth Maps and Attention Mechanisms for Enhanced Image Inpainting
- Title(参考訳): 画像インペインティングにおける深度マップの活用と注意機構
- Authors: Jin Hyun Park, Harine Choi, Praewa Pitiphat,
- Abstract要約: 本稿ではRGB画像と深度画像の両方を取り入れた新しい手法を提案する。
我々のモデルはデュアルエンコーダアーキテクチャを用いており、1つのエンコーダがRGB画像を処理し、もう1つのエンコーダが深度画像を処理している。
RGB画像とともに深度情報を組み込むことで,再現性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing deep learning-based image inpainting methods typically rely on convolutional networks with RGB images to reconstruct images. However, relying exclusively on RGB images may neglect important depth information, which plays a critical role in understanding the spatial and structural context of a scene. Just as human vision leverages stereo cues to perceive depth, incorporating depth maps into the inpainting process can enhance the model's ability to reconstruct images with greater accuracy and contextual awareness. In this paper, we propose a novel approach that incorporates both RGB and depth images for enhanced image inpainting. Our models employ a dual encoder architecture, where one encoder processes the RGB image and the other handles the depth image. The encoded features from both encoders are then fused in the decoder using an attention mechanism, effectively integrating the RGB and depth representations. We use two different masking strategies, line and square, to test the robustness of the model under different types of occlusions. To further analyze the effectiveness of our approach, we use Gradient-weighted Class Activation Mapping (Grad-CAM) visualizations to examine the regions of interest the model focuses on during inpainting. We show that incorporating depth information alongside the RGB image significantly improves the reconstruction quality. Through both qualitative and quantitative comparisons, we demonstrate that the depth-integrated model outperforms the baseline, with attention mechanisms further enhancing inpainting performance, as evidenced by multiple evaluation metrics and visualization.
- Abstract(参考訳): 既存のディープラーニングベースの画像インペインティング手法は、通常、画像の再構成にRGB画像を用いた畳み込みネットワークに依存している。
しかし、RGB画像にのみ依存することは、シーンの空間的・構造的文脈を理解する上で重要な役割を果たす重要な深度情報を無視する可能性がある。
人間の視覚が立体的手がかりを利用して深度を知覚するのと同じように、深度マップを塗布プロセスに組み込むことで、より正確で文脈的な認識で画像を再構築する能力を高めることができる。
本稿では,RGB画像と深度画像の両方を取り入れた新しい手法を提案する。
我々のモデルはデュアルエンコーダアーキテクチャを用いており、1つのエンコーダがRGB画像を処理し、もう1つのエンコーダが深度画像を処理している。
両エンコーダの符号化された機能は、アテンション機構を用いてデコーダに融合され、RGBと奥行き表現を効果的に統合する。
我々は2つの異なるマスキング戦略、線と正方形を用いて、異なる種類の閉塞下でモデルの堅牢性をテストする。
提案手法の有効性を更に分析するために,グラッド-CAM (Grad-CAM) の可視化を用いて,本モデルが着色中に注目する関心領域について検討する。
RGB画像とともに深度情報を組み込むことで,再現性を大幅に向上することを示す。
定性的および定量的な比較により、深度積分モデルがベースラインよりも優れており、複数の評価指標や可視化によって証明されたように、注意機構により塗装性能がさらに向上することを示した。
関連論文リスト
- RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。
提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。
提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-30T11:25:34Z) - AGG-Net: Attention Guided Gated-convolutional Network for Depth Image
Completion [1.8820731605557168]
注意誘導ゲート畳み込みネットワーク(AGG-Net)に基づく深度画像補完のための新しいモデルを提案する。
符号化段階では、異なるスケールでの深度と色の特徴の融合を実現するために、AG-GConvモジュールが提案されている。
復号段階では、アテンションガイドスキップ接続(AG-SC)モジュールが提示され、再構成にあまりにも多くの深度に関係のない特徴を導入することを避ける。
論文 参考訳(メタデータ) (2023-09-04T14:16:08Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal
Fusion with Depth Guidance [49.94504248096527]
異なるモードの特徴表現をモデル化するためのDGONet(Depth-Guided Outpainting Network)を提案する。
1)マルチモーダル学習モジュールは、異なるモーダル特性の観点から独自の深さとRGBの特徴表現を生成する。
我々は、不明瞭な輪郭を増進し、信頼性の高いコンテンツ生成を迅速化するために、クロスモーダルロスとエッジロスからなる追加の制約戦略を特別に設計する。
論文 参考訳(メタデータ) (2022-04-12T06:06:50Z) - Depth-SIMS: Semi-Parametric Image and Depth Synthesis [23.700034054124604]
本稿では,RGBキャンバスを高品質なRGB画像に変換するインペイントネットワークと組み合わせて,適切に整列されたセグメンテーションマップとスパース深度マップを備えたRGBキャンバスを生成する手法を提案する。
構造アライメントと画質の面でのベンチマークを行い,SOTAよりもmIoUが3.7%増加し,競争力の高いFIDが得られた。
セマンティックセグメンテーションと深度補完のためのトレーニングデータとして生成されたデータの品質を分析し,本手法が他の手法よりも適していることを示す。
論文 参考訳(メタデータ) (2022-03-07T13:58:32Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Wavelength-based Attributed Deep Neural Network for Underwater Image
Restoration [9.378355457555319]
本稿では,色チャネルの移動範囲に基づいて,適切な受容場サイズ(コンテキスト)を付与することで,大幅な性能向上が期待できることを示す。
第2の新規性として、学習したマルチコンテキスト特徴を適応的に洗練するための注意的スキップ機構を組み込んだ。
提案するフレームワークはDeep WaveNetと呼ばれ、従来のピクセル単位で機能ベースのコスト関数を使って最適化されている。
論文 参考訳(メタデータ) (2021-06-15T06:47:51Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Depth as Attention for Face Representation Learning [11.885178256393893]
低コストRGB-Dセンサを用いた深度マルチモーダル顔認識のための新しい深度誘導型注意メカニズムを提案する。
この解は, 4つのデータセットに対して平均87.3% (+5.0%), 99.1% (+0.9%), 99.7% (+0.6%) および95.3% (+0.5%) の精度を達成する。
論文 参考訳(メタデータ) (2021-01-03T16:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。