Fugu-MT 論文翻訳(概要): Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images

論文の概要: Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images

arxiv url: http://arxiv.org/abs/2103.07894v2
Date: Tue, 16 Mar 2021 02:38:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-17 11:17:09.441619
Title: Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images
Title（参考訳）: Refer-it-in-RGBD:RGBD画像における3次元視覚グラウンドのボトムアップアプローチ
Authors: Haolin Liu, Anran Lin, Xiaoguang Han, Lei Yang, Yizhou Yu, Shuguang Cui
Abstract要約: RGBD画像における接地参照表現は新たな分野である。本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
参考スコア（独自算出の注目度）: 69.5662419067878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Grounding referring expressions in RGBD image has been an emerging field. We present a novel task of 3D visual grounding in single-view RGBD image where the referred objects are often only partially scanned due to occlusion. In contrast to previous works that directly generate object proposals for grounding in the 3D scenes, we propose a bottom-up approach to gradually aggregate context-aware information, effectively addressing the challenge posed by the partial geometry. Our approach first fuses the language and the visual features at the bottom level to generate a heatmap that coarsely localizes the relevant regions in the RGBD image. Then our approach conducts an adaptive feature learning based on the heatmap and performs the object-level matching with another visio-linguistic fusion to finally ground the referred object. We evaluate the proposed method by comparing to the state-of-the-art methods on both the RGBD images extracted from the ScanRefer dataset and our newly collected SUNRefer dataset. Experiments show that our method outperforms the previous methods by a large margin (by 11.2% and 15.6% Acc@0.5) on both datasets.
Abstract（参考訳）: RGBD画像における接地参照表現は新たな分野である。本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。 3Dシーンに接地するためのオブジェクト提案を直接生成する従来の作業とは対照的に,コンテキスト認識情報を段階的に集約するボトムアップ手法を提案し,部分幾何学による課題に効果的に対処する。我々のアプローチは、まず言語と視覚機能をボトムレベルに融合させ、rgbdイメージ内の関連領域を粗くローカライズするヒートマップを生成する。次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。提案手法は,ScanReferデータセットから抽出したRGBD画像と新たに収集したSUNReferデータセットとを比較して評価する。実験により,本手法は両方のデータセットにおいて従来手法よりも大きな差(11.2%,15.6%Acc@0.5)を示した。

関連論文リスト

LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning [75.9814389360821]
層状光線交差(LaRI)は、1つの画像から未知の幾何学的推論を行う新しい方法である。コンパクトで階層的な表現から恩恵を受けることで、LaRIは完全で効率的でビュー整合な幾何学的推論を可能にする。 3Dオブジェクトやシーンを含む、合成および実世界のデータのための完全なトレーニングデータ生成パイプラインを構築します。
論文参考訳（メタデータ） (2025-04-25T15:31:29Z)
Coherent 3D Scene Diffusion From a Single RGB Image [68.31336308924477]
単一のRGB画像からのコヒーレントな3次元シーン再構成のための拡散に基づく新しい手法を提案する。本手法は,シーン内のすべてのオブジェクトの3次元ポーズとジオメトリを同時に認識する。一つのRGB画像3Dシーン再構成のタスクを条件付き拡散プロセスとしてフレーミングすることにより,本手法は最先端の手法を超越する。
論文参考訳（メタデータ） (2024-12-13T17:26:45Z)
Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文参考訳（メタデータ） (2024-06-26T16:01:10Z)
RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images [13.051302134031808]
単一のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する新しい手法を提案する。オブジェクトのポーズを直接予測する既存の手法や、ポーズ回復のためのスパースキーポイントに依存する既存の手法とは異なり、我々のアプローチは密度の高い対応を使ってこの課題に対処する。
論文参考訳（メタデータ） (2024-05-14T10:10:45Z)
MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。 MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文参考訳（メタデータ） (2024-03-03T14:01:03Z)
Point Cloud Scene Completion with Joint Color and Semantic Estimation from Single RGB-D Image [45.640943637433416]
本稿では,色付きセマンティック・ポイント・クラウドシーンのボリューム誘導による仕上げのためのプログレッシブ・ビュー・インペインティングの深層強化学習手法を提案する。提案手法は,3次元シーンのボリューム再構成,2次元RGB-Dとセグメンテーション画像のインペインティング,完成のための複数ビュー選択という3つのモジュールから構成される。
論文参考訳（メタデータ） (2022-10-12T03:08:24Z)
Unsupervised Multi-View Object Segmentation Using Radiance Field Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文参考訳（メタデータ） (2022-10-02T11:14:23Z)
Towards Two-view 6D Object Pose Estimation: A Comparative Study on Fusion Strategy [16.65699606802237]
現在のRGBベースの6Dオブジェクトポーズ推定手法は、データセットや実世界のアプリケーションで顕著なパフォーマンスを達成した。本稿では2枚のRGB画像から暗黙的な3D情報を学習する6次元オブジェクトポーズ推定フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-01T08:22:34Z)
Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文参考訳（メタデータ） (2021-01-13T16:30:20Z)
Geometric Correspondence Fields: Learned Differentiable Rendering for 3D Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文参考訳（メタデータ） (2020-07-17T12:34:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。