Fugu-MT 論文翻訳(概要): GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering

論文の概要: GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering

arxiv url: http://arxiv.org/abs/2506.01174v1
Date: Sun, 01 Jun 2025 21:13:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.974061
Title: GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering
Title（参考訳）: GraphPad: 身体的質問応答のための推論時間3DScene Graphのアップデート
Authors: Muhammad Qasim Ali, Saeejith Nair, Alexander Wong, Yuchen Cui, Yuhao Chen,
Abstract要約: GraphPadは変更可能な構造化メモリで、エージェントはAPI呼び出しを通じてタスクのニーズに合わせて調整できる。環境を表す可変なシーングラフと、フレームごとにインデックスするナビゲーションログと、タスク固有のノート用のスクラッチパッドとを備える。
参考スコア（独自算出の注目度）: 63.17411943434755
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Structured scene representations are a core component of embodied agents, helping to consolidate raw sensory streams into readable, modular, and searchable formats. Due to their high computational overhead, many approaches build such representations in advance of the task. However, when the task specifications change, such static approaches become inadequate as they may miss key objects, spatial relations, and details. We introduce GraphPad, a modifiable structured memory that an agent can tailor to the needs of the task through API calls. It comprises a mutable scene graph representing the environment, a navigation log indexing frame-by-frame content, and a scratchpad for task-specific notes. Together, GraphPad serves as a dynamic workspace that remains complete, current, and aligned with the agent's immediate understanding of the scene and its task. On the OpenEQA benchmark, GraphPad attains 55.3%, a +3.0% increase over an image-only baseline using the same vision-language model, while operating with five times fewer input frames. These results show that allowing online, language-driven refinement of 3-D memory yields more informative representations without extra training or data collection.
Abstract（参考訳）: 構造化シーン表現はエンボディエージェントのコアコンポーネントであり、生の知覚ストリームを可読性、モジュール性、検索可能なフォーマットに統合するのに役立ちます。高い計算オーバーヘッドのため、多くの手法がタスクの前にそのような表現を構築している。しかし、タスク仕様が変更されると、キーオブジェクトや空間関係、詳細を見逃す可能性があるため、そのような静的アプローチは不十分になる。 GraphPadは、エージェントがAPI呼び出しを通じてタスクのニーズに合わせて調整できる、変更可能な構造化メモリである。環境を表す可変なシーングラフと、フレームごとにインデックスするナビゲーションログと、タスク固有のノート用のスクラッチパッドとを備える。同時に、GraphPadは、シーンとそのタスクに対するエージェントの即時理解に従って、完了し、現在の状態を維持した動的ワークスペースとして機能する。 OpenEQAベンチマークでは、GraphPadは55.3%、同じ視覚言語モデルを使用して画像のみのベースラインに対して+3.0%増加し、5倍の入力フレームで動作する。これらの結果から,3次元メモリのオンライン改良により,余分なトレーニングやデータ収集を伴わずに,より情報に富む表現が得られることがわかった。

関連論文リスト

KeySG: Hierarchical Keyframe-Based 3D Scene Graphs [1.5134439544218246]
KeySGは3Dシーンを、床、部屋、オブジェクト、機能要素からなる階層的なグラフとして表現している。我々はVLMを利用してシーン情報を抽出し、オブジェクト間の関係エッジを明示的にモデル化する必要性を緩和する。我々のアプローチは、大規模シーングラフに関連するスケーラビリティ問題を緩和しながら、複雑であいまいなクエリを処理できる。
論文参考訳（メタデータ） (2025-10-01T15:53:27Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文参考訳（メタデータ） (2023-04-28T14:39:22Z)
Explore Contextual Information for 3D Scene Graph Generation [43.66442227874461]
3次元シーングラフ生成(SGG)はコンピュータビジョンに大きな関心を寄せている。本稿では,3次元SGGタスクのコンテキスト情報を完全に探索するフレームワークを提案する。提案手法は,従来の3DSSGデータセットの手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-12T14:26:17Z)
Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM 既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文参考訳（メタデータ） (2022-09-15T16:26:14Z)
Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文参考訳（メタデータ） (2021-08-19T17:59:07Z)
Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文参考訳（メタデータ） (2020-04-08T12:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。