論文の概要: Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images
- arxiv url: http://arxiv.org/abs/2103.07894v2
- Date: Tue, 16 Mar 2021 02:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 11:17:09.441619
- Title: Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images
- Title(参考訳): Refer-it-in-RGBD:RGBD画像における3次元視覚グラウンドのボトムアップアプローチ
- Authors: Haolin Liu, Anran Lin, Xiaoguang Han, Lei Yang, Yizhou Yu, Shuguang
Cui
- Abstract要約: RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
- 参考スコア(独自算出の注目度): 69.5662419067878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding referring expressions in RGBD image has been an emerging field. We
present a novel task of 3D visual grounding in single-view RGBD image where the
referred objects are often only partially scanned due to occlusion. In contrast
to previous works that directly generate object proposals for grounding in the
3D scenes, we propose a bottom-up approach to gradually aggregate context-aware
information, effectively addressing the challenge posed by the partial
geometry. Our approach first fuses the language and the visual features at the
bottom level to generate a heatmap that coarsely localizes the relevant regions
in the RGBD image. Then our approach conducts an adaptive feature learning
based on the heatmap and performs the object-level matching with another
visio-linguistic fusion to finally ground the referred object. We evaluate the
proposed method by comparing to the state-of-the-art methods on both the RGBD
images extracted from the ScanRefer dataset and our newly collected SUNRefer
dataset. Experiments show that our method outperforms the previous methods by a
large margin (by 11.2% and 15.6% Acc@0.5) on both datasets.
- Abstract(参考訳): RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
3Dシーンに接地するためのオブジェクト提案を直接生成する従来の作業とは対照的に,コンテキスト認識情報を段階的に集約するボトムアップ手法を提案し,部分幾何学による課題に効果的に対処する。
我々のアプローチは、まず言語と視覚機能をボトムレベルに融合させ、rgbdイメージ内の関連領域を粗くローカライズするヒートマップを生成する。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
提案手法は,ScanReferデータセットから抽出したRGBD画像と新たに収集したSUNReferデータセットとを比較して評価する。
実験により,本手法は両方のデータセットにおいて従来手法よりも大きな差(11.2%,15.6%Acc@0.5)を示した。
関連論文リスト
- Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images [13.051302134031808]
単一のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する新しい手法を提案する。
オブジェクトのポーズを直接予測する既存の手法や、ポーズ回復のためのスパースキーポイントに依存する既存の手法とは異なり、我々のアプローチは密度の高い対応を使ってこの課題に対処する。
論文 参考訳(メタデータ) (2024-05-14T10:10:45Z) - MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - Point Cloud Scene Completion with Joint Color and Semantic Estimation
from Single RGB-D Image [45.640943637433416]
本稿では,色付きセマンティック・ポイント・クラウドシーンのボリューム誘導による仕上げのためのプログレッシブ・ビュー・インペインティングの深層強化学習手法を提案する。
提案手法は,3次元シーンのボリューム再構成,2次元RGB-Dとセグメンテーション画像のインペインティング,完成のための複数ビュー選択という3つのモジュールから構成される。
論文 参考訳(メタデータ) (2022-10-12T03:08:24Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - Towards Two-view 6D Object Pose Estimation: A Comparative Study on
Fusion Strategy [16.65699606802237]
現在のRGBベースの6Dオブジェクトポーズ推定手法は、データセットや実世界のアプリケーションで顕著なパフォーマンスを達成した。
本稿では2枚のRGB画像から暗黙的な3D情報を学習する6次元オブジェクトポーズ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-01T08:22:34Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。