論文の概要: GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2412.14480v1
- Date: Thu, 19 Dec 2024 03:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 18:44:15.970706
- Title: GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
- Title(参考訳): GraphEQA:リアルタイム身体的質問応答のための3次元セマンティックシーングラフの利用
- Authors: Saumya Saxena, Blake Buchanan, Chris Paxton, Bingqing Chen, Narunas Vaskevicius, Luigi Palmieri, Jonathan Francis, Oliver Kroemer,
- Abstract要約: EQA(Embodied Question Answering)では、エージェントは、位置した質問に自信を持って答えるために、目に見えない環境の意味的な理解を探求し、発展させなければならない。
本稿では,リアルタイムな3次元メトリセマンティックシーングラフ(3DSG)とタスク関連画像をマルチモーダルメモリとして利用して視覚言語モデル(VLM)を構築する新しいアプローチであるGraphEQAを提案する。
我々は,3DSGの階層性を利用した階層的計画手法を用いて,構造化計画と意味誘導探索を行う。
- 参考スコア(独自算出の注目度): 23.459190671283487
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In Embodied Question Answering (EQA), agents must explore and develop a semantic understanding of an unseen environment in order to answer a situated question with confidence. This remains a challenging problem in robotics, due to the difficulties in obtaining useful semantic representations, updating these representations online, and leveraging prior world knowledge for efficient exploration and planning. Aiming to address these limitations, we propose GraphEQA, a novel approach that utilizes real-time 3D metric-semantic scene graphs (3DSGs) and task relevant images as multi-modal memory for grounding Vision-Language Models (VLMs) to perform EQA tasks in unseen environments. We employ a hierarchical planning approach that exploits the hierarchical nature of 3DSGs for structured planning and semantic-guided exploration. Through experiments in simulation on the HM-EQA dataset and in the real world in home and office environments, we demonstrate that our method outperforms key baselines by completing EQA tasks with higher success rates and fewer planning steps.
- Abstract(参考訳): EQA(Embodied Question Answering)では、エージェントは、位置した質問に自信を持って答えるために、目に見えない環境の意味的な理解を探求し、発展させなければならない。
ロボット工学において、有用な意味表現を得るのが困難であり、これらの表現をオンラインで更新し、より効率的な探索と計画に先進的な知識を活用するため、これは依然として困難な問題である。
このような制約に対処するために,リアルタイムな3Dメトリック・セマンティック・シーングラフ(3DSG)とタスク関連画像をマルチモーダルメモリとして利用し,視覚言語モデル(VLM)をグラウンド化して,目に見えない環境でのEQAタスクを実行する新しいアプローチであるGraphEQAを提案する。
我々は,3DSGの階層性を利用した階層的計画手法を用いて,構造化計画と意味誘導探索を行う。
我々は,HM-EQAデータセットと実環境における実環境におけるシミュレーション実験を通じて,EQAタスクを高い成功率で達成し,計画手順を小さくすることで,本手法がキーベースラインを上回ることを実証した。
関連論文リスト
- DSM: Building A Diverse Semantic Map for 3D Visual Grounding [4.89669292144966]
本研究では,3次元視覚接地作業を行うロボットエージェントを対象とした多種多様な意味マップ構築手法を提案する。
本手法は多モード大言語モデル(VLM)を利用してシーン内のオブジェクトの潜在意味的属性と関係を捕捉し,幾何学的スライディングウインドウマップ構築戦略により,DSM(Diverse Semantic Map)を作成する。
実験結果から,本手法はセマンティックセグメンテーションや3次元視覚グラウンディングといったタスクにおける現在の手法よりも優れており,特に,最先端の手法と比較して総合的に優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-11T07:18:42Z) - ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis [15.68979922374718]
ASHiTAは、ハイレベルなタスクをグラウンド化されたサブタスクに分解することで、3Dシーングラフにグラウンドされたタスク階層を生成するフレームワークである。
実験の結果,ASHiTAは環境依存サブタスクに高レベルタスクを分割する際のLCMベースラインよりもはるかに優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-09T03:22:52Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - 3D Question Answering for City Scene Understanding [12.433903847890322]
3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。
都市レベルのシーン理解のための3D MQAデータセットCity-3DQAを提案する。
新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。
論文 参考訳(メタデータ) (2024-07-24T16:22:27Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Map-based Modular Approach for Zero-shot Embodied Question Answering [9.234108543963568]
EQA(Embodied Question Answering)は、ロボットが新しい環境でナビゲートできる能力を評価するためのベンチマークタスクである。
本稿では,実世界のロボットが未知の環境を探索・地図化できるように,EQAに対するマップベースのモジュラーアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-26T13:10:59Z) - OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。
我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。
OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Situational Graphs for Robot Navigation in Structured Indoor
Environments [9.13466172688693]
環境を表す1つのグラフからなるリアルタイムオンライン構築状況グラフ(S-Graphs)を提示する。
本手法は3次元LiDARスキャンから抽出した計測値と平面面を用いて3層Sグラフをリアルタイムに構築・最適化する。
提案手法は,ロボットのポーズ推定の最先端結果を示すだけでなく,環境の計量意味・トポロジーモデルにも寄与する。
論文 参考訳(メタデータ) (2022-02-24T16:59:06Z) - Core Challenges in Embodied Vision-Language Planning [9.190245973578698]
本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2021-06-26T05:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。