論文の概要: Grounding 3D Scene Affordance From Egocentric Interactions
- arxiv url: http://arxiv.org/abs/2409.19650v1
- Date: Sun, 29 Sep 2024 10:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:06:35.005913
- Title: Grounding 3D Scene Affordance From Egocentric Interactions
- Title(参考訳): エゴセントリック相互作用による3次元シーンのグラウンディング
- Authors: Cuiyu Liu, Wei Zhai, Yuhang Yang, Hongchen Luo, Sen Liang, Yang Cao, Zheng-Jun Zha,
- Abstract要約: 接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
- 参考スコア(独自算出の注目度): 52.5827242925951
- License:
- Abstract: Grounding 3D scene affordance aims to locate interactive regions in 3D environments, which is crucial for embodied agents to interact intelligently with their surroundings. Most existing approaches achieve this by mapping semantics to 3D instances based on static geometric structure and visual appearance. This passive strategy limits the agent's ability to actively perceive and engage with the environment, making it reliant on predefined semantic instructions. In contrast, humans develop complex interaction skills by observing and imitating how others interact with their surroundings. To empower the model with such abilities, we introduce a novel task: grounding 3D scene affordance from egocentric interactions, where the goal is to identify the corresponding affordance regions in a 3D scene based on an egocentric video of an interaction. This task faces the challenges of spatial complexity and alignment complexity across multiple sources. To address these challenges, we propose the Egocentric Interaction-driven 3D Scene Affordance Grounding (Ego-SAG) framework, which utilizes interaction intent to guide the model in focusing on interaction-relevant sub-regions and aligns affordance features from different sources through a bidirectional query decoder mechanism. Furthermore, we introduce the Egocentric Video-3D Scene Affordance Dataset (VSAD), covering a wide range of common interaction types and diverse 3D environments to support this task. Extensive experiments on VSAD validate both the feasibility of the proposed task and the effectiveness of our approach.
- Abstract(参考訳): 3Dシーンの空き地は、3D環境における対話的な領域を見つけることを目的としており、エージェントが周囲と知的に対話することが重要である。
既存のほとんどのアプローチは、静的な幾何学的構造と視覚的外観に基づいてセマンティクスを3Dインスタンスにマッピングすることでこれを達成している。
この受動的戦略は、エージェントが環境を積極的に知覚し、関与する能力を制限し、事前に定義された意味的指示に依存する。
対照的に、人間は周囲との相互作用を観察し模倣することで複雑な相互作用のスキルを発達させる。
このような能力でモデルを強化するために,エゴセントリックなインタラクションから3Dシーンのアベイランスを基盤として,インタラクションのエゴセントリックなビデオに基づいて,対応する3Dシーンのアベイランス領域を特定するという,新しいタスクを導入する。
このタスクは、複数のソースにわたる空間的複雑さとアライメント複雑性の課題に直面する。
これらの課題に対処するために,インタラクション関連サブリージョンに着目し,双方向クエリデコーダ機構を通じて異なるソースからのアプライアンス機能を調整することを目的とした,インタラクションインテンションを利用したEgocentric Interaction-driven 3D Scene Affordance Grounding(Ego-SAG)フレームワークを提案する。
さらに,エゴセントリックなビデオ3D Scene Affordance Dataset (VSAD)を導入し,多種多様なインタラクションタイプと多種多様な3D環境をカバーした。
VSADにおける広範囲な実験により,提案課題の実現可能性と提案手法の有効性が検証された。
関連論文リスト
- EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
Egocentric Human-Object Interaction(HOI)を理解することは、人間中心の知覚の基本的な側面であり、AR/VRや組み込みAIといった応用を促進する。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z) - Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning [24.162598399141785]
Scene-LLMは3次元視覚言語モデルであり、インタラクティブな3次元屋内環境におけるエンボディエージェントの能力を高める。
Scene-LLMを用いた実験は, 密接なキャプション, 質問応答, 対話型プランニングにおいて, 強力な機能を示す。
論文 参考訳(メタデータ) (2024-03-18T01:18:48Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Egocentric Activity Recognition and Localization on a 3D Map [94.30708825896727]
我々は,エゴセントリックなビデオから既知の3Dマップ上で,モバイルユーザの行動を共同で認識し,位置決めする問題に対処する。
本モデルでは,環境の階層的容積表現(HVR)とエゴセントリックなビデオの入力を取得し,その3次元動作位置を潜在変数として推定し,その潜在的な位置を囲む映像および文脈的手がかりに基づいて動作を認識する。
論文 参考訳(メタデータ) (2021-05-20T06:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。