論文の概要: OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene
Grounding
- arxiv url: http://arxiv.org/abs/2103.07679v1
- Date: Sat, 13 Mar 2021 10:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:30:57.505853
- Title: OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene
Grounding
- Title(参考訳): OCID-Ref: クラッタ・シーン・グラウンディングのための言語を具体化した3Dロボットデータセット
- Authors: Ke-Jyun Wang, Yun-Hsuan Liu, Hung-Ting Su, Jen-Wei Wang, Yu-Siang
Wang, Winston H. Hsu, Wen-Chin Chen
- Abstract要約: 本稿では,隠蔽対象の表現を参照する参照表現セグメンテーションタスクを特徴とする新しいOCID-Refデータセットを提案する。
OCID-Refは、RGBイメージとポイントクラウド入力を提供する2,300シーンから305,694の表現を参照する。
実験の結果,2次元信号と3次元信号の集約の有効性が示されたが,隠蔽物体の参照は現代的な視覚的接地システムでは依然として困難である。
- 参考スコア(独自算出の注目度): 22.018800966242885
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To effectively apply robots in working environments and assist humans, it is
essential to develop and evaluate how visual grounding (VG) can affect machine
performance on occluded objects. However, current VG works are limited in
working environments, such as offices and warehouses, where objects are usually
occluded due to space utilization issues. In our work, we propose a novel
OCID-Ref dataset featuring a referring expression segmentation task with
referring expressions of occluded objects. OCID-Ref consists of 305,694
referring expressions from 2,300 scenes with providing RGB image and point
cloud inputs. To resolve challenging occlusion issues, we argue that it's
crucial to take advantage of both 2D and 3D signals to resolve challenging
occlusion issues. Our experimental results demonstrate the effectiveness of
aggregating 2D and 3D signals but referring to occluded objects still remains
challenging for the modern visual grounding systems. OCID-Ref is publicly
available at https://github.com/lluma/OCID-Ref
- Abstract(参考訳): 作業環境にロボットを効果的に適用し,人間を支援するためには,視覚接地(vg)が被写体における機械性能にどのように影響するかを発達・評価することが不可欠である。
ただし、現在のVG作業は、オフィスや倉庫などの作業環境に制限されており、スペース利用の問題のためにオブジェクトが通常含まれます。
本研究では,occludedオブジェクトの表現を参照する参照表現セグメンテーションタスクを特徴とするocid-refデータセットを提案する。
OCID-Refは、RGBイメージとポイントクラウド入力を提供する2,300シーンから305,694の表現を参照する。
難解な閉塞問題を解決するには、難解な閉塞問題を解決するために2D信号と3D信号の両方を利用することが重要です。
実験の結果,2次元信号と3次元信号の集約の有効性が示されたが,隠蔽物体の参照は現代的な視覚的接地システムでは依然として困難である。
OCID-Refはhttps://github.com/lluma/OCID-Refで公開されている。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection [4.534713782093219]
上記の問題を緩和するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(FGAHOI)を提案する。
FGAHOIは、マルチスケールサンプリング(MSS)、階層空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-01-08T03:53:50Z) - SupeRGB-D: Zero-shot Instance Segmentation in Cluttered Indoor
Environments [67.34330257205525]
本研究では,RGB-Dデータからゼロショットのインスタンスセグメンテーション(ZSIS)を探索し,意味的カテゴリに依存しない方法で未知のオブジェクトを識別する。
本稿では,注釈付きオブジェクトを用いて画素のオブジェクト性」を学習し,乱雑な屋内環境における未知のオブジェクトカテゴリに一般化する手法を提案する。
論文 参考訳(メタデータ) (2022-12-22T17:59:48Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - HIDA: Towards Holistic Indoor Understanding for the Visually Impaired
via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor [25.206941504935685]
HIDAは、固体LiDARセンサを用いた3Dポイントクラウドインスタンスセグメンテーションに基づく軽量補助システムである。
システム全体は,3つのハードウェアコンポーネント,2つの対話的機能(障害物回避とオブジェクト探索),および音声ユーザインタフェースから構成される。
提案した3Dインスタンスセグメンテーションモデルは、ScanNet v2データセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-07-07T12:23:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。