論文の概要: Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal
Fusion with Depth Guidance
- arxiv url: http://arxiv.org/abs/2204.05543v1
- Date: Tue, 12 Apr 2022 06:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 00:27:25.544824
- Title: Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal
Fusion with Depth Guidance
- Title(参考訳): 画像の高信頼化に向けて:奥行き誘導による学習構造を考慮したマルチモーダル融合
- Authors: Lei Zhang, Kang Liao, Chunyu Lin, Yao Zhao
- Abstract要約: 異なるモードの特徴表現をモデル化するためのDGONet(Depth-Guided Outpainting Network)を提案する。
1)マルチモーダル学習モジュールは、異なるモーダル特性の観点から独自の深さとRGBの特徴表現を生成する。
我々は、不明瞭な輪郭を増進し、信頼性の高いコンテンツ生成を迅速化するために、クロスモーダルロスとエッジロスからなる追加の制約戦略を特別に設計する。
- 参考スコア(独自算出の注目度): 49.94504248096527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image outpainting technology generates visually reasonable content regardless
of authenticity, making it unreliable to serve for practical applications even
though introducing additional modalities eg. the sketch. Since sparse depth
maps are widely captured in robotics and autonomous systems, together with RGB
images, we combine the sparse depth in the image outpainting task to provide
more reliable performance. Concretely, we propose a Depth-Guided Outpainting
Network (DGONet) to model the feature representations of different modalities
differentially and learn the structure-aware cross-modal fusion. To this end,
two components are designed to implement: 1) The Multimodal Learning Module
produces unique depth and RGB feature representations from the perspectives of
different modal characteristics. 2) The Depth Guidance Fusion Module leverages
the complete depth modality to guide the establishment of RGB contents by
progressive multimodal feature fusion. Furthermore, we specially design an
additional constraint strategy consisting of Cross-modal Loss and Edge Loss to
enhance ambiguous contours and expedite reliable content generation. Extensive
experiments on KITTI demonstrate our superiority over the state-of-the-art
methods with more reliable content generation.
- Abstract(参考訳): イメージアウトペイント技術は、真正性に関係なく視覚的に合理的なコンテンツを生成し、追加のモダリティを導入しても実用的な用途には役立たない。
スケッチだ
スパース深度マップは、ロボット工学や自律システムにおいて、RGB画像とともに広く捉えられているため、画像出力タスクにおけるスパース深度を組み合わせて、より信頼性の高い性能を提供する。
具体的には,異なるモダリティの特徴表現を微分的にモデル化し,構造認識型クロスモーダル融合を学習するための奥行き誘導型アウトパインティングネットワーク(dgonet)を提案する。
この目的のために、2つのコンポーネントが実装されている。
1)マルチモーダル学習モジュールは,異なるモーダル特性の観点から,独自の深度とRGB特徴表現を生成する。
2) 深層誘導核融合モジュールは, 完全深度モードを利用して, プログレッシブマルチモーダル機能融合によるRGBコンテンツの確立を導く。
さらに,クロスモーダル損失とエッジ損失からなる付加的な制約戦略を特別に設計し,曖昧な輪郭を強化し,信頼性の高いコンテンツ生成を迅速化する。
KITTIに関する大規模な実験は、より信頼性の高いコンテンツ生成を伴う最先端の手法よりも優れていることを示す。
関連論文リスト
- Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion
Network for Depth Completion [3.8558637038709622]
エンコーダ・デコーダ構造に基づく深度補完のための新しいモデルを提案する。
本モデルでは,マスク適応型Gated Convolutionアーキテクチャと双方向プログレッシブフュージョンモジュールの2つの重要なコンポーネントを紹介する。
深度マップの完成と既存手法の精度と信頼性に優れる性能を実現した。
論文 参考訳(メタデータ) (2024-01-15T02:58:06Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - RigNet: Repetitive Image Guided Network for Depth Completion [20.66405067066299]
近年のアプローチは、高密度な結果を予測するためのイメージガイド学習に重点を置いている。
ぼやけたイメージガイダンスとオブジェクト構造は、まだイメージガイドされたフレームワークのパフォーマンスを妨げている。
画像案内ネットワークにおける反復的な設計を探索し,徐々に深度値の回復を図る。
提案手法は,NYUv2データセットの最先端化を実現し,提出時のKITTIベンチマークで1位にランクインする。
論文 参考訳(メタデータ) (2021-07-29T08:00:33Z) - BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and
Monocular Depth Estimation [60.34562823470874]
本稿では,DSR(Deep Map Super- resolution)とMDE(Monocular depth Estimation)の併用学習ネットワークを提案する。
1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。
もう一つは、深度マップ再構築プロセス用に設計されたコンテンツガイダンスブリッジ(CGBdg)であり、MDEタスクのためにDSRタスクから学んだコンテンツガイダンスを提供する。
論文 参考訳(メタデータ) (2021-07-27T01:28:23Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Interpretable Deep Multimodal Image Super-Resolution [23.48305854574444]
マルチモーダル画像超解像(Multimodal image super- resolution, SR)は、高分解能画像の再構成である。
本稿では,結合した疎結合を組み込んだマルチモーダルディープネットワーク設計を行い,他のモーダルからの情報を再構成プロセスに効果的に融合させる。
論文 参考訳(メタデータ) (2020-09-07T14:08:35Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Multimodal Deep Unfolding for Guided Image Super-Resolution [23.48305854574444]
ディープラーニング手法は、低解像度の入力から高解像度の出力へのエンドツーエンドのマッピングを学習するために、トレーニングデータに依存する。
本稿では,スパース事前を組み込んだマルチモーダル深層学習設計を提案し,他の画像モダリティからの情報をネットワークアーキテクチャに効果的に統合する。
提案手法は,サイド情報を用いた畳み込みスパース符号化の反復的アルゴリズムに類似した,新しい展開演算子に依存している。
論文 参考訳(メタデータ) (2020-01-21T14:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。