論文の概要: InstanceRefer: Cooperative Holistic Understanding for Visual Grounding
on Point Clouds through Instance Multi-level Contextual Referring
- arxiv url: http://arxiv.org/abs/2103.01128v1
- Date: Mon, 1 Mar 2021 16:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:31:06.905861
- Title: InstanceRefer: Cooperative Holistic Understanding for Visual Grounding
on Point Clouds through Instance Multi-level Contextual Referring
- Title(参考訳): instancerefer:マルチレベルコンテクスト参照によるポイントクラウドの視覚的接地のための協調的総合的理解
- Authors: Zhihao Yuan, Xu Yan, Yinghong Liao, Ruimao Zhang, Zhen Li, Shuguang
Cui
- Abstract要約: InstanceReferと呼ばれる新しいモデルを提案し、ポイントクラウド上で優れた3Dビジュアルアースを実現します。
提案モデルではまず, 点雲上の単眼領域からインスタンスをフィルタリングし, 少数の候補を得る。
実験によれば、instancereferは以前のstate-of-the-artメソッドを大きく上回っている。
- 参考スコア(独自算出の注目度): 38.13420293700949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with the visual grounding in 2D images, the natural-language-guided
3D object localization on point clouds is more challenging due to the sparse
and disordered property. In this paper, we propose a new model, named
InstanceRefer, to achieve a superior 3D visual grounding through unifying
instance attribute, relation and localization perceptions. In practice, based
on the predicted target category from natural language, our model first filters
instances from panoptic segmentation on point clouds to obtain a small number
of candidates. Note that such instance-level candidates are more effective and
rational than the redundant 3D object-proposal candidates. Then, for each
candidate, we conduct the cooperative holistic scene-language understanding,
i.e., multi-level contextual referring from instance attribute perception,
instance-to-instance relation perception and instance-to-background global
localization perception. Eventually, the most relevant candidate is localized
effectively through adaptive confidence fusion. Experiments confirm that our
InstanceRefer outperforms previous state-of-the-art methods by a large margin,
i.e., 9.5% improvement on the ScanRefer benchmark (ranked 1st place) and 7.2%
improvement on Sr3D.
- Abstract(参考訳): 2次元画像の視覚的接地と比較すると,点雲上の自然言語誘導3次元物体の局在は,ばらばらで不規則な性質のため,より困難である。
本稿では,インスタンス属性の統一化,関係性,局在性知覚を通じて,優れた3次元視覚接地を実現するための新しいモデルであるInstanceReferを提案する。
実際、自然言語から予測されたターゲットカテゴリに基づいて、私たちのモデルはまず、ポイントクラウド上のパンオプティクスセグメンテーションからインスタンスをフィルタリングして、少数の候補を得ます。
このようなインスタンスレベルの候補は、冗長な3Dオブジェクトプロポーサル候補よりも効果的で合理的である。
そして,各候補に対して,複数レベルの文脈的理解,インスタンス属性認識,インスタンス間関係知覚,インスタンス間グローバルローカライゼーション知覚から,協調的全体的シーン言語理解を行う。
最終的に、最も関連する候補は適応信頼融合によって効果的に局所化される。
実験では、私たちのInstanceReferは、ScanReferベンチマークの9.5%の改善(ランキング1位)とSr3Dの7.2%の改善など、以前の最先端のメソッドを大きなマージンで上回っていることを確認しています。
関連論文リスト
- Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。
既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。
提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文 参考訳(メタデータ) (2024-04-27T09:46:49Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - A Unified BEV Model for Joint Learning of 3D Local Features and Overlap
Estimation [12.499361832561634]
本稿では,3次元局所特徴の同時学習と重なり推定のための統合鳥眼ビュー(BEV)モデルを提案する。
提案手法は,特に重複の少ないシーンにおいて,重複予測における既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-28T12:01:16Z) - Not All Instances Contribute Equally: Instance-adaptive Class
Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。
本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:00:18Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。