論文の概要: Language-Based Depth Hints for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2403.15551v1
- Date: Fri, 22 Mar 2024 18:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:02:34.121643
- Title: Language-Based Depth Hints for Monocular Depth Estimation
- Title(参考訳): 単眼深度推定のための言語ベース深度ヒント
- Authors: Dylan Auty, Krystian Mikolajczyk,
- Abstract要約: 我々は、世界の構造に関する明示的な事前の情報源として、自然言語の使用を実証する。
まず、学習中にこの暗黙のバイアスを符号化した言語モデルを示し、非常に単純な学習手法を用いて抽出できることを示す。
この予測は,既成のインスタンスセグメンテーションモデルを用いて,MDEシステムに対する仮定の明示的な情報源として提供されることを示す。
- 参考スコア(独自算出の注目度): 16.86600007830682
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular depth estimation (MDE) is inherently ambiguous, as a given image may result from many different 3D scenes and vice versa. To resolve this ambiguity, an MDE system must make assumptions about the most likely 3D scenes for a given input. These assumptions can be either explicit or implicit. In this work, we demonstrate the use of natural language as a source of an explicit prior about the structure of the world. The assumption is made that human language encodes the likely distribution in depth-space of various objects. We first show that a language model encodes this implicit bias during training, and that it can be extracted using a very simple learned approach. We then show that this prediction can be provided as an explicit source of assumption to an MDE system, using an off-the-shelf instance segmentation model that provides the labels used as the input to the language model. We demonstrate the performance of our method on the NYUD2 dataset, showing improvement compared to the baseline and to random controls.
- Abstract(参考訳): 単眼深度推定(MDE)は本質的に不明瞭であり、与えられた画像は多くの異なる3Dシーンから生じる可能性がある。
この曖昧さを解決するために、MDEシステムは与えられた入力に対して最も可能性の高い3Dシーンを仮定する必要がある。
これらの仮定は明示的か暗黙的である。
本研究は,世界構造に関する明示的な事前の情報源として,自然言語の利用を実証するものである。
人間の言語は様々な物体の深さ空間の分布を符号化していると仮定する。
まず、学習中にこの暗黙のバイアスを符号化した言語モデルを示し、非常に単純な学習手法を用いて抽出できることを示す。
次に、この予測は、言語モデルへの入力として使われるラベルを提供するオフ・ザ・シェルフ・インスタンス・セグメンテーション・モデルを用いて、MDEシステムへの仮定の明示的な情報源として提供されることを示す。
提案手法の性能をNYUD2データセットに示すとともに,ベースラインやランダム制御に比較して改善点を示す。
関連論文リスト
- PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation [10.856377349228927]
我々は,言語記述に整合した幾何学的事前情報を活用することにより,単眼深度推定の精度を高めることができると論じる。
本稿では,アフィン不変深度を推定するために,シーンと一致した画像とテキスト記述の両方を取り入れた事前学習されたテキスト・画像拡散モデルを用いて,事前拡散を提案する。
言語先行者は,モデルの注意を特定の領域に誘導し,ユーザの意図に合わせて3Dシーンを知覚するのに役立つことを示す。
論文 参考訳(メタデータ) (2024-11-24T05:07:10Z) - WorDepth: Variational Language Prior for Monocular Depth Estimation [47.614203035800735]
本研究は,2つの固有不明瞭なモダリティを併用して,メートル法スケールの再構成を行うことができるかどうかを考察する。
一つの画像から高密度深度マップを予測する問題である単眼深度推定に焦点をあてる。
我々のアプローチはテキストと画像の分岐を交互に訓練する。
論文 参考訳(メタデータ) (2024-04-04T17:54:33Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - Zero and Few-shot Semantic Parsing with Ambiguous Inputs [45.285508941560295]
私たちは、曖昧な自然言語を論理やコードといった形式的な表現に変換するためのフレームワーク、データセット、課題であるAmPを紹介します。
我々は,AmPを用いて,複数ショットのテキスト・ツー・コードシステムがあいまいさをどのように処理し,新しいメトリクスを3つ導入するかを検討する。
事前学習された大規模なモデルでは,意図的な指示を伴わずに,可能な意味の分布を把握できないことが判明した。
論文 参考訳(メタデータ) (2023-06-01T15:46:36Z) - ObjCAViT: Improving Monocular Depth Estimation Using Natural Language
Models And Image-Object Cross-Attention [22.539300644593936]
単眼深度推定(MDE)は3次元シーンを2次元に圧縮することで生じる曖昧さのため困難である。
人間や動物は、MDEを解決するために高レベルな情報を使っていることが示されている。
本稿では、シーン内のオブジェクトの意味やオブジェクト間の関係に関する既知の情報の利用を促すことで、MDE性能を向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T18:32:06Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z) - Wasserstein Distances for Stereo Disparity Estimation [62.09272563885437]
既定義の離散値の集合上の分布を出力する、奥行き推定や不均一推定への既存のアプローチ。
これにより、真の深さや差がこれらの値と一致しない場合に、不正確な結果をもたらす。
任意の深さの値を出力できる新しいニューラルネットワークアーキテクチャを用いて、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-07-06T21:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。