論文の概要: Learning Scene Structure Guidance via Cross-Task Knowledge Transfer for
Single Depth Super-Resolution
- arxiv url: http://arxiv.org/abs/2103.12955v1
- Date: Wed, 24 Mar 2021 03:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 21:28:18.746834
- Title: Learning Scene Structure Guidance via Cross-Task Knowledge Transfer for
Single Depth Super-Resolution
- Title(参考訳): 単一奥行き超解像のためのクロスタスク知識伝達による学習シーン構造指導
- Authors: Baoli Sun, Xinchen Ye, Baopu Li, Haojie Li, Zhihui Wang, Rui Xu
- Abstract要約: 既存のカラーガイド深度スーパーリゾリューション(DSR)アプローチでは、RGBイメージを構造的なガイダンスとして使用するトレーニングサンプルとしてペアのRGB-Dデータを必要とします。
トレーニング段階では,RGBと深度モダリティの両方が利用できるが,単一の深度モダリティのみが存在するターゲットデータセット上でテストを行うという,クロスモダリティの知識を初めて学習する。
具体的には、RGBイメージを入力として深度マップを推定する補助深度推定(DE)タスクを構築し、DSRタスクとDSRタスクの両方を協調的にトレーニングして性能を向上させる。
- 参考スコア(独自算出の注目度): 35.21324004883027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing color-guided depth super-resolution (DSR) approaches require paired
RGB-D data as training samples where the RGB image is used as structural
guidance to recover the degraded depth map due to their geometrical similarity.
However, the paired data may be limited or expensive to be collected in actual
testing environment. Therefore, we explore for the first time to learn the
cross-modality knowledge at training stage, where both RGB and depth modalities
are available, but test on the target dataset, where only single depth modality
exists. Our key idea is to distill the knowledge of scene structural guidance
from RGB modality to the single DSR task without changing its network
architecture. Specifically, we construct an auxiliary depth estimation (DE)
task that takes an RGB image as input to estimate a depth map, and train both
DSR task and DE task collaboratively to boost the performance of DSR. Upon
this, a cross-task interaction module is proposed to realize bilateral cross
task knowledge transfer. First, we design a cross-task distillation scheme that
encourages DSR and DE networks to learn from each other in a teacher-student
role-exchanging fashion. Then, we advance a structure prediction (SP) task that
provides extra structure regularization to help both DSR and DE networks learn
more informative structure representations for depth recovery. Extensive
experiments demonstrate that our scheme achieves superior performance in
comparison with other DSR methods.
- Abstract(参考訳): 既存の色誘導深度超解法(DSR)アプローチでは、幾何学的類似性により劣化した深度マップを復元するために、RGBイメージを構造ガイダンスとして使用するトレーニングサンプルとしてペアRGB-Dデータが必要である。
しかし、ペアのデータを実際のテスト環境で収集するには、制限やコストがかかる可能性がある。
そこで本研究では,RGBと深度モダリティの両方が利用できる訓練段階において,単一の深度モダリティのみが存在するターゲットデータセット上で実験を行い,モダリティ間の知識を初めて学習する。
我々のキーとなる考え方は、RGBのモダリティから単一のDSRタスクへのシーン構造ガイダンスの知識を、ネットワークアーキテクチャを変更することなく抽出することである。
具体的には、RGBイメージを入力として深度マップを推定する補助深度推定(DE)タスクを構築し、DSRタスクとDSRタスクの両方を協調的にトレーニングし、DSRの性能を高める。
タスク間の知識伝達を実現するために,クロスタスクインタラクションモジュールが提案されている。
まず,DSR と DE ネットワークの相互学習を促すクロスタスク蒸留方式を,教師が指導する役割交換方式で設計する。
次に,dsrとdeネットワークの両方が奥行き回復のためにより情報的な構造表現を学ぶのに役立つ構造正規化を提供する構造予測(sp)タスクを前進させる。
大規模な実験により,本手法は他のDSR法と比較して優れた性能を示した。
関連論文リスト
- DistillGrasp: Integrating Features Correlation with Knowledge Distillation for Depth Completion of Transparent Objects [4.939414800373192]
RGB-Dカメラは透明な物体の深さを正確に捉えられない。
近年の研究では、新しい視覚的特徴を探求し、深度を再構築するための複雑なネットワークを設計する傾向にある。
本稿では,教師から学生への知識を蒸留するディスティルグラフという,効率的な深度補完ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-01T07:17:10Z) - Depth-Guided Semi-Supervised Instance Segmentation [62.80063539262021]
Semi-Supervised Instance (SSIS)は、トレーニング中にラベルなしデータの量を活用することを目的としている。
従来のフレームワークは主に、ラベルなし画像のRGB情報を利用して擬似ラベルを生成する。
この制限を克服するために、Depth-Guided (DG)フレームワークを導入します。
論文 参考訳(メタデータ) (2024-06-25T09:36:50Z) - 360$^\circ$ High-Resolution Depth Estimation via Uncertainty-aware Structural Knowledge Transfer [8.988255747467333]
高分解能(HR)全方位深度マップを予測するために、既存の手法では、完全に教師付き学習を通じて入力としてHR全方位画像(ODI)を利用するのが一般的である。
本稿では,HR深度GTマップが存在しない場合に,低分解能(LR) ODIから直接HR全方位深度を推定する。
我々のキーとなる考え方は、HR画像のモダリティと対応するLR深度マップからシーン構造的知識を移譲し、余分な推論コストを伴わずにHR深度推定の目標を達成することである。
論文 参考訳(メタデータ) (2023-04-17T03:24:21Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and
Monocular Depth Estimation [60.34562823470874]
本稿では,DSR(Deep Map Super- resolution)とMDE(Monocular depth Estimation)の併用学習ネットワークを提案する。
1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。
もう一つは、深度マップ再構築プロセス用に設計されたコンテンツガイダンスブリッジ(CGBdg)であり、MDEタスクのためにDSRタスクから学んだコンテンツガイダンスを提供する。
論文 参考訳(メタデータ) (2021-07-27T01:28:23Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - A Unified Structure for Efficient RGB and RGB-D Salient Object Detection [15.715143016999695]
SODの両タスクを効率的に扱うために,CRACEモジュールを用いた統合構造を提案する。
提案したCRACEモジュールは2つ(RGB SOD)または3つ(RGB-D SOD)の入力を受信し、適切に融合する。
CRACEモジュールを備えた単純な統合機能ピラミッドネットワーク(FPN)のような構造は、サリエンシとバウンダリの多層監視の下で結果を伝達し、洗練する。
論文 参考訳(メタデータ) (2020-12-01T12:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。