Fugu-MT 論文翻訳(概要): Task-oriented Sequential Grounding in 3D Scenes

論文の概要: Task-oriented Sequential Grounding in 3D Scenes

arxiv url: http://arxiv.org/abs/2408.04034v1
Date: Wed, 7 Aug 2024 18:30:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 17:29:51.383142
Title: Task-oriented Sequential Grounding in 3D Scenes
Title（参考訳）: 3次元シーンにおけるタスク指向シーケンスグラウンド
Authors: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li,
Abstract要約: 本稿では,3次元シーンにおけるタスク指向の逐次グラウンド(Sequential Grounding)を提案する。エージェントは、屋内のシーンにターゲットオブジェクトのシーケンスを配置することで、日々の活動を完了するための詳細なステップバイステップの指示に従う必要がある。 SG3Dは22,346のタスクと112,236のステップが4,895の現実世界の3Dシーンにまたがる大規模データセットである。
参考スコア（独自算出の注目度）: 35.90034571439091
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Grounding natural language in physical 3D environments is essential for the advancement of embodied artificial intelligence. Current datasets and models for 3D visual grounding predominantly focus on identifying and localizing objects from static, object-centric descriptions. These approaches do not adequately address the dynamic and sequential nature of task-oriented grounding necessary for practical applications. In this work, we propose a new task: Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow detailed step-by-step instructions to complete daily activities by locating a sequence of target objects in indoor scenes. To facilitate this task, we introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236 steps across 4,895 real-world 3D scenes. The dataset is constructed using a combination of RGB-D scans from various 3D scene datasets and an automated task generation pipeline, followed by human verification for quality assurance. We adapted three state-of-the-art 3D visual grounding models to the sequential grounding task and evaluated their performance on SG3D. Our results reveal that while these models perform well on traditional benchmarks, they face significant challenges with task-oriented sequential grounding, underscoring the need for further research in this area.
Abstract（参考訳）: 物理的3次元環境における自然言語の接地は、具体的人工知能の発展に不可欠である。現在の3Dビジュアルグラウンドのためのデータセットとモデルは、主に静的なオブジェクト中心の記述からオブジェクトを特定し、ローカライズすることに焦点を当てている。これらのアプローチは、実用的な応用に必要なタスク指向グラウンドディングの動的かつシーケンシャルな性質を適切に解決するものではない。本研究では,3次元シーンにおけるタスク指向の逐次グラウンド(Sequential Grounding in 3D scene)を提案する。 SG3Dは22,346のタスクと112,236のステップを4,895の現実世界の3Dシーンに収めた大規模データセットである。データセットは、さまざまな3DシーンデータセットからRGB-Dスキャンと自動タスク生成パイプラインを組み合わせて構築され、続いて品質保証のための人間による検証が行われる。我々は3つの最先端3次元視覚接地モデルを逐次接地課題に適用し,SG3Dの性能評価を行った。その結果、これらのモデルは従来のベンチマークでよく機能するが、タスク指向のシーケンシャルグラウンドリングにおいて重大な課題に直面しており、この分野におけるさらなる研究の必要性が強調されている。

関連論文リスト

GroundFlow: A Plug-in Module for Temporal Reasoning on 3D Point Cloud Sequential Grounding [26.430390282267062]
3次元点雲(SG3D)における連続的な接地は、詳細なステップで日々の作業のためにテキスト命令に従うことによって、オブジェクトのシーケンスを探索することを指す。現在の3Dビジュアルグラウンド法では,各ステップから有用な時間情報を抽出することなく,複数のステップでテキスト命令を処理している。 GroundFlow - 3Dポイントクラウドシーケンシャルグラウンド上での時間的推論のためのプラグインモジュール。
論文参考訳（メタデータ） (2025-06-26T12:47:33Z)
DSM: Building A Diverse Semantic Map for 3D Visual Grounding [4.89669292144966]
本研究では,3次元視覚接地作業を行うロボットエージェントを対象とした多種多様な意味マップ構築手法を提案する。本手法は多モード大言語モデル(VLM)を利用してシーン内のオブジェクトの潜在意味的属性と関係を捕捉し,幾何学的スライディングウインドウマップ構築戦略により,DSM(Diverse Semantic Map)を作成する。実験結果から,本手法はセマンティックセグメンテーションや3次元視覚グラウンディングといったタスクにおける現在の手法よりも優れており,特に,最先端の手法と比較して総合的に優れていることがわかった。
論文参考訳（メタデータ） (2025-04-11T07:18:42Z)
Exploring 3D Reasoning-Driven Planning: From Implicit Human Intentions to Route-Aware Activity Planning [103.24305074625106]
本研究では,暗黙的な指示から意図した活動を導き,ステップ間の経路や計画を伴うステップに分解する新しい3Dタスクである3D推論駆動計画を提案する。まずReasonPlan3Dという,多種多様な3Dシーンを多種多様な暗黙の指示でカバーする大規模ベンチマークを構築した。第二に、複数のステップにまたがってコンテキスト整合性を持つプログレッシブプラン生成を導入する新しいフレームワークを設計する。
論文参考訳（メタデータ） (2025-03-17T09:33:58Z)
S2O: Static to Openable Enhancement for Articulated 3D Objects [20.310491257189422]
本稿では,静的な3次元オブジェクトを静的なオブジェクトから生成するS2Oタスクを紹介する。この課題に対処するための統一的なフレームワークを定式化し、オープンな3Dオブジェクトのデータセットをキュレートする。
論文参考訳（メタデータ） (2024-09-27T16:34:13Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文参考訳（メタデータ） (2023-09-11T06:03:39Z)
3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment [44.00343134325925]
3D-VisTAは、3Dビジョンとテキストアライメントのための事前訓練されたトランスフォーマーである。 ScanScribeは、3D-VL事前トレーニングのための最初の大規模3Dシーンテキストペアデータセットである。
論文参考訳（メタデータ） (2023-08-08T15:59:17Z)
Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene Scale and Realism Tradeoffs for ObjectGoal Navigation [70.82403156865057]
本研究では,合成3次元シーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。我々の実験によると、我々の小規模データセットで訓練されたエージェントは、はるかに大きなデータセットで訓練されたエージェントと一致するか、より優れています。
論文参考訳（メタデータ） (2023-06-20T05:07:23Z)
3D-Aware Object Goal Navigation via Simultaneous Exploration and Identification [19.125633699422117]
本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-12-01T07:55:56Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)
ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文参考訳（メタデータ） (2020-11-15T23:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。