論文の概要: ObjCAViT: Improving Monocular Depth Estimation Using Natural Language
Models And Image-Object Cross-Attention
- arxiv url: http://arxiv.org/abs/2211.17232v1
- Date: Wed, 30 Nov 2022 18:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:12:44.902362
- Title: ObjCAViT: Improving Monocular Depth Estimation Using Natural Language
Models And Image-Object Cross-Attention
- Title(参考訳): ObjCAViT:自然言語モデルと画像オブジェクトのクロスアテンションを用いた単眼深度推定の改善
- Authors: Dylan Auty and Krystian Mikolajczyk
- Abstract要約: 単眼深度推定(MDE)は3次元シーンを2次元に圧縮することで生じる曖昧さのため困難である。
人間や動物は、MDEを解決するために高レベルな情報を使っていることが示されている。
本稿では、シーン内のオブジェクトの意味やオブジェクト間の関係に関する既知の情報の利用を促すことで、MDE性能を向上させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 22.539300644593936
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While monocular depth estimation (MDE) is an important problem in computer
vision, it is difficult due to the ambiguity that results from the compression
of a 3D scene into only 2 dimensions. It is common practice in the field to
treat it as simple image-to-image translation, without consideration for the
semantics of the scene and the objects within it. In contrast, humans and
animals have been shown to use higher-level information to solve MDE: prior
knowledge of the nature of the objects in the scene, their positions and likely
configurations relative to one another, and their apparent sizes have all been
shown to help resolve this ambiguity.
In this paper, we present a novel method to enhance MDE performance by
encouraging use of known-useful information about the semantics of objects and
inter-object relationships within a scene. Our novel ObjCAViT module sources
world-knowledge from language models and learns inter-object relationships in
the context of the MDE problem using transformer attention, incorporating
apparent size information. Our method produces highly accurate depth maps, and
we obtain competitive results on the NYUv2 and KITTI datasets. Our ablation
experiments show that the use of language and cross-attention within the
ObjCAViT module increases performance. Code is released at
https://github.com/DylanAuty/ObjCAViT.
- Abstract(参考訳): 単眼深度推定(MDE)はコンピュータビジョンにおいて重要な問題であるが、3次元シーンを2次元に圧縮することで生じる曖昧さのため困難である。
現場では、シーンのセマンティクスやその中のオブジェクトを考慮せずに、単純な画像から画像への翻訳として扱うのが一般的である。
対照的に、人間と動物は、MDEの解決に高レベルな情報を使うことが示されている: シーン内の物体の性質、それらの位置と、それと相対的な構成に関する以前の知識、そしてその見かけの大きさは、この曖昧さを解決するのに役立っている。
本稿では,シーン内のオブジェクトの意味やオブジェクト間の関係に関する既知の情報の利用を促すことで,MDE性能を向上させる新しい手法を提案する。
本稿のObjCAViTモジュールは,言語モデルからワールド知識を抽出し,変圧器の注意を生かしてMDE問題の文脈におけるオブジェクト間関係を学習する。
提案手法は高精度な深度マップを作成し,NYUv2およびKITTIデータセット上での競合結果を得た。
アブレーション実験の結果,objcavitモジュール内の言語とクロスアテンションの使用により性能が向上した。
コードはhttps://github.com/dylanauty/objcavitでリリースされる。
関連論文リスト
- Interpretable Action Recognition on Hard to Classify Actions [11.641926922266347]
人間は、明確に認識された物体と部分の間の批判的時間的関係を認識することによって、ビデオにおける複雑な活動を認識する。
これを模倣するために、物体と手の位置と動きを利用したモデルを構築し、その活動が起こっていることを認識します。
このモデルを改善するために、最も混乱した3つのクラス(このモデル)に注目し、3D情報の欠如が大きな問題であることを確認した。
オブジェクトの形状情報を既存のオブジェクトの特徴に統合するために,“Container”と“NotContainer”の違いを決定するために,最先端のオブジェクト検出モデルを微調整した。
論文 参考訳(メタデータ) (2024-09-19T21:23:44Z) - Which One? Leveraging Context Between Objects and Multiple Views for Language Grounding [77.26626173589746]
文脈内接地に対する多視点的アプローチ(MAGiC)を提案する。
2つの類似したオブジェクトを区別する言語に基づくオブジェクト参照を選択する。
SNAREオブジェクト参照タスクの最先端モデルよりも、相対誤差を12.9%削減する。
論文 参考訳(メタデータ) (2023-11-12T00:21:58Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Context-aware 6D Pose Estimation of Known Objects using RGB-D data [3.48122098223937]
6Dオブジェクトのポーズ推定は、コンピュータビジョンとロボット工学の分野で研究トピックとなっている。
私たちは、以前の作業とは異なり、コンテキストアウェアなアーキテクチャを提示します。
実験の結果,LineMODデータセットの精度は約3.2%向上した。
論文 参考訳(メタデータ) (2022-12-11T18:01:01Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Monocular Depth Estimation Using Cues Inspired by Biological Vision
Systems [22.539300644593936]
単眼深度推定(MDE)は、シーンのRGB画像を同じカメラビューから画素幅の深度マップに変換することを目的としている。
MDEタスクの一部は、画像内のどの視覚的手がかりを深度推定に使用できるか、どのように使うかを学ぶことである。
モデルに視覚的キュー情報を明示的に注入することは深度推定に有用であることを示す。
論文 参考訳(メタデータ) (2022-04-21T19:42:36Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。