論文の概要: ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding
- arxiv url: http://arxiv.org/abs/2303.13186v1
- Date: Thu, 23 Mar 2023 11:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 14:35:33.391546
- Title: ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding
- Title(参考訳): ScanERU: 身体的参照理解に基づくインタラクティブな3次元視覚グラウンド
- Authors: Ziyang Lu, Yunqiang Pei, Guoqing Wang, Yang Yang, Zheng Wang, Heng Tao
Shen
- Abstract要約: Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
- 参考スコア(独自算出の注目度): 67.21613160846299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming to link natural language descriptions to specific regions in a 3D
scene represented as 3D point clouds, 3D visual grounding is a very fundamental
task for human-robot interaction. The recognition errors can significantly
impact the overall accuracy and then degrade the operation of AI systems.
Despite their effectiveness, existing methods suffer from the difficulty of low
recognition accuracy in cases of multiple adjacent objects with similar
appearances.To address this issue, this work intuitively introduces the
human-robot interaction as a cue to facilitate the development of 3D visual
grounding. Specifically, a new task termed Embodied Reference Understanding
(ERU) is first designed for this concern. Then a new dataset called ScanERU is
constructed to evaluate the effectiveness of this idea. Different from existing
datasets, our ScanERU is the first to cover semi-synthetic scene integration
with textual, real-world visual, and synthetic gestural information.
Additionally, this paper formulates a heuristic framework based on attention
mechanisms and human body movements to enlighten the research of ERU.
Experimental results demonstrate the superiority of the proposed method,
especially in the recognition of multiple identical objects. Our codes and
dataset are ready to be available publicly.
- Abstract(参考訳): 3dポイントクラウドとして表現された3dシーンの特定の領域に自然言語記述をリンクすることを目的とした3dビジュアルグラウンドは、人間とロボットの相互作用にとって非常に基本的なタスクである。
認識エラーは全体的な精度に大きな影響を与え、AIシステムの動作を劣化させる。
これらの効果にもかかわらず, 既存の手法では, 類似した外観を持つ複数の隣接物体の認識精度の低下に悩まされており, 直感的に人間とロボットの相互作用を導入し, 視覚的グラウンドニングの開発を容易にする。
具体的には、Embodied Reference Understanding (ERU)と呼ばれる新しいタスクが最初に設計されている。
次に、このアイデアの有効性を評価するために、ScanERUと呼ばれる新しいデータセットを構築します。
既存のデータセットと違い、私たちのscaneruは、テキスト、現実世界のビジュアル、合成のジェストラル情報との半合成シーン統合を初めてカバーした。
また,注意機構と人体運動に基づくヒューリスティックな枠組みを定式化し,eruの研究を啓蒙する。
実験により,提案手法の優位性,特に複数の同一物体の認識について検証した。
コードとデータセットは公開される準備ができています。
関連論文リスト
- Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。