Fugu-MT 論文翻訳(概要): ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding

論文の概要: ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding

arxiv url: http://arxiv.org/abs/2303.13186v1
Date: Thu, 23 Mar 2023 11:36:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 14:35:33.391546
Title: ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding
Title（参考訳）: ScanERU: 身体的参照理解に基づくインタラクティブな3次元視覚グラウンド
Authors: Ziyang Lu, Yunqiang Pei, Guoqing Wang, Yang Yang, Zheng Wang, Heng Tao Shen
Abstract要約: Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。 ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
参考スコア（独自算出の注目度）: 67.21613160846299
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aiming to link natural language descriptions to specific regions in a 3D scene represented as 3D point clouds, 3D visual grounding is a very fundamental task for human-robot interaction. The recognition errors can significantly impact the overall accuracy and then degrade the operation of AI systems. Despite their effectiveness, existing methods suffer from the difficulty of low recognition accuracy in cases of multiple adjacent objects with similar appearances.To address this issue, this work intuitively introduces the human-robot interaction as a cue to facilitate the development of 3D visual grounding. Specifically, a new task termed Embodied Reference Understanding (ERU) is first designed for this concern. Then a new dataset called ScanERU is constructed to evaluate the effectiveness of this idea. Different from existing datasets, our ScanERU is the first to cover semi-synthetic scene integration with textual, real-world visual, and synthetic gestural information. Additionally, this paper formulates a heuristic framework based on attention mechanisms and human body movements to enlighten the research of ERU. Experimental results demonstrate the superiority of the proposed method, especially in the recognition of multiple identical objects. Our codes and dataset are ready to be available publicly.
Abstract（参考訳）: 3dポイントクラウドとして表現された3dシーンの特定の領域に自然言語記述をリンクすることを目的とした3dビジュアルグラウンドは、人間とロボットの相互作用にとって非常に基本的なタスクである。認識エラーは全体的な精度に大きな影響を与え、AIシステムの動作を劣化させる。これらの効果にもかかわらず, 既存の手法では, 類似した外観を持つ複数の隣接物体の認識精度の低下に悩まされており, 直感的に人間とロボットの相互作用を導入し, 視覚的グラウンドニングの開発を容易にする。具体的には、Embodied Reference Understanding (ERU)と呼ばれる新しいタスクが最初に設計されている。次に、このアイデアの有効性を評価するために、ScanERUと呼ばれる新しいデータセットを構築します。既存のデータセットと違い、私たちのscaneruは、テキスト、現実世界のビジュアル、合成のジェストラル情報との半合成シーン統合を初めてカバーした。また,注意機構と人体運動に基づくヒューリスティックな枠組みを定式化し,eruの研究を啓蒙する。実験により,提案手法の優位性,特に複数の同一物体の認識について検証した。コードとデータセットは公開される準備ができています。

関連論文リスト

SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding [44.81427860963744]
この分野での基本課題はエゴ中心の3次元視覚グラウンド(英語版)であり、エージェントは言葉による記述に基づいて現実世界の3次元空間内の対象物を特定する。視覚的意味論とテキスト的意味論を両立させる新しいアプローチであるDenseGroundingを提案する。視覚的特徴として,細粒度のグローバルなシーンの特徴を捉えることで,密接なセマンティックなセマンティックなセマンティック・エンハンサーを導入する。テキスト記述のための言語セマンティックエンハンサー(Language Semantic Enhancer)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:49:06Z)
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。本稿では,関係認識のためのオブジェクト識別を伴う意味空間のシーングラフを構築する2次元視覚的グラウンドティングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-07T02:02:15Z)
Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions [43.784500616459304]
本稿では,言語指導,視覚的観察,インタラクションに基づく3次元オブジェクトの可利用性に基づく新しいタスクを提案する。 LMAffordance3Dは,最初のマルチモーダルな言語誘導型3Dアベイランスグラウンドティングネットワークである。
論文参考訳（メタデータ） (2025-04-07T05:38:23Z)
FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文参考訳（メタデータ） (2025-03-10T23:13:35Z)
Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文参考訳（メタデータ） (2024-09-29T10:46:19Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文参考訳（メタデータ） (2023-09-08T19:27:01Z)
Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文参考訳（メタデータ） (2023-03-18T15:37:35Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)
Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文参考訳（メタデータ） (2021-08-17T13:30:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。