論文の概要: Background Prompting for Improved Object Depth
- arxiv url: http://arxiv.org/abs/2306.05428v1
- Date: Thu, 8 Jun 2023 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 12:48:57.039145
- Title: Background Prompting for Improved Object Depth
- Title(参考訳): 被写体深度改善のための背景プロンプト
- Authors: Manel Baradad, Yuanzhen Li, Forrester Cole, Michael Rubinstein,
Antonio Torralba, William T. Freeman, Varun Jampani
- Abstract要約: 単一の画像からオブジェクトの深さを推定することは、多くのビジョン、ロボティクス、グラフィックアプリケーションにとって貴重なタスクである。
本稿では,入力対象画像を学習背景に適応させる,シンプルで効果的なバックグラウンドプロンプティング手法を提案する。
複数の合成および実データセットの結果は、既存の様々な深度ネットワークに対して、実際の物体深度を一貫した改善を示す。
- 参考スコア(独自算出の注目度): 70.25467510077706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the depth of objects from a single image is a valuable task for
many vision, robotics, and graphics applications. However, current methods
often fail to produce accurate depth for objects in diverse scenes. In this
work, we propose a simple yet effective Background Prompting strategy that
adapts the input object image with a learned background. We learn the
background prompts only using small-scale synthetic object datasets. To infer
object depth on a real image, we place the segmented object into the learned
background prompt and run off-the-shelf depth networks. Background Prompting
helps the depth networks focus on the foreground object, as they are made
invariant to background variations. Moreover, Background Prompting minimizes
the domain gap between synthetic and real object images, leading to better
sim2real generalization than simple finetuning. Results on multiple synthetic
and real datasets demonstrate consistent improvements in real object depths for
a variety of existing depth networks. Code and optimized background prompts can
be found at: https://mbaradad.github.io/depth_prompt.
- Abstract(参考訳): 単一の画像からオブジェクトの深さを推定することは、多くのビジョン、ロボティクス、グラフィックアプリケーションにとって貴重なタスクである。
しかし、現在の手法では、様々な場面で正確な被写体深度が得られないことが多い。
本研究では,入力対象画像に学習背景を適応させる,シンプルで効果的なバックグラウンドプロンプト戦略を提案する。
背景プロンプトは小規模の合成オブジェクトデータセットのみを使用して学習する。
実画像上で物体の深度を推定するために、セグメント化された物体を学習した背景のプロンプトに配置し、棚から外れた深さネットワークを走らせる。
バックグラウンド・プロンプティングは、背景の変化に不変となるため、深度ネットワークが前景オブジェクトにフォーカスするのに役立つ。
さらに、バックグラウンドプロンプトは合成画像と実際のオブジェクト画像の間のドメインギャップを最小限に抑え、単純な微調整よりもsim2現実の一般化に繋がる。
複数の合成データと実データの結果は、既存の様々な深度ネットワークにおける実物体深度の一貫した改善を示している。
コードと最適化されたバックグラウンドプロンプトは以下の通りである。
関連論文リスト
- Depth-guided Texture Diffusion for Image Semantic Segmentation [47.46257473475867]
本稿では,この課題を効果的に解決するディープスガイド型テクスチャ拡散手法を提案する。
本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。
この拡張深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより,深度マップと画像との相違を効果的に橋渡しする。
論文 参考訳(メタデータ) (2024-08-17T04:55:03Z) - DepGAN: Leveraging Depth Maps for Handling Occlusions and Transparency in Image Composition [7.693732944239458]
DepGANは、デプスマップとアルファチャンネルを利用して、不正確なオクルージョンを正すジェネレーティブ・アドバイサル・ネットワークである。
我々のネットワークの中心にはDepth Aware Lossと呼ばれる新しいロス関数があり、ピクセルのワイド深さ差を定量化している。
我々は不透明データを利用してネットワークの学習プロセスを強化し、透明で半透明なオブジェクトを含む構成を効果的に管理する。
論文 参考訳(メタデータ) (2024-07-16T16:18:40Z) - Impact of Pseudo Depth on Open World Object Segmentation with Minimal
User Guidance [18.176606453818557]
擬似深度マップ(Pseudo depth map)は、訓練中に地上の真理として使用される深度マップの述語である。
本稿では,学習中に見たことのないクラスのオブジェクトを分割するために,擬似深度マップを利用する。
論文 参考訳(メタデータ) (2023-04-12T09:18:38Z) - Source-free Depth for Object Pop-out [113.24407776545652]
現代の学習に基づく手法は、野生での推論による有望な深度マップを提供する。
本研究では,オブジェクトの3次元前の「ポップアウト」を用いて,オブジェクトセグメンテーションの深度推定モデルを適用する。
8つのデータセットに対する我々の実験は、性能と一般化性の両方の観点から、我々の方法の利点を一貫して示している。
論文 参考訳(メタデータ) (2022-12-10T21:57:11Z) - MonoGraspNet: 6-DoF Grasping with a Single RGB Image [73.96707595661867]
6-DoFロボットの把握は長続きするが未解決の問題だ。
近年の手法では3次元ネットワークを用いて深度センサから幾何的把握表現を抽出している。
我々はMonoGraspNetと呼ばれるRGBのみの6-DoFグルーピングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-09-26T21:29:50Z) - Domain Randomization-Enhanced Depth Simulation and Restoration for
Perceiving and Grasping Specular and Transparent Objects [28.84776177634971]
深度復元のための強力なRGBD融合ネットワークSwinDRNetを提案する。
また,ドメインランダム化強化深度シミュレーション(DREDS)によるアクティブステレオ深度システムのシミュレーションも提案する。
我々の深度復元は下流タスクの性能を効果的に向上させることを示す。
論文 参考訳(メタデータ) (2022-08-07T19:17:16Z) - DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes [68.38952377590499]
複雑な屋内環境の中を移動する単眼カメラから奥行きを推定するための新しい手法を提案する。
提案手法は,静的な背景と複数の移動する人物からなるシーン全体にわたる絶対規模の深度マップを推定する。
論文 参考訳(メタデータ) (2021-08-12T09:12:39Z) - Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes [85.56602190773684]
従来のカメラ幾何学を用いて異なる視点からソースイメージを再レンダリングするビュー合成という考え方に基づいている。
映像中の合成画像と対応する実画像との誤差を最小化することにより、ポーズや深さを予測するディープネットワークを完全に教師なしで訓練することができる。
論文 参考訳(メタデータ) (2021-05-05T17:08:10Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。