論文の概要: GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2506.01174v1
- Date: Sun, 01 Jun 2025 21:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.974061
- Title: GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering
- Title(参考訳): GraphPad: 身体的質問応答のための推論時間3DScene Graphのアップデート
- Authors: Muhammad Qasim Ali, Saeejith Nair, Alexander Wong, Yuchen Cui, Yuhao Chen,
- Abstract要約: GraphPadは変更可能な構造化メモリで、エージェントはAPI呼び出しを通じてタスクのニーズに合わせて調整できる。
環境を表す可変なシーングラフと、フレームごとにインデックスするナビゲーションログと、タスク固有のノート用のスクラッチパッドとを備える。
- 参考スコア(独自算出の注目度): 63.17411943434755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured scene representations are a core component of embodied agents, helping to consolidate raw sensory streams into readable, modular, and searchable formats. Due to their high computational overhead, many approaches build such representations in advance of the task. However, when the task specifications change, such static approaches become inadequate as they may miss key objects, spatial relations, and details. We introduce GraphPad, a modifiable structured memory that an agent can tailor to the needs of the task through API calls. It comprises a mutable scene graph representing the environment, a navigation log indexing frame-by-frame content, and a scratchpad for task-specific notes. Together, GraphPad serves as a dynamic workspace that remains complete, current, and aligned with the agent's immediate understanding of the scene and its task. On the OpenEQA benchmark, GraphPad attains 55.3%, a +3.0% increase over an image-only baseline using the same vision-language model, while operating with five times fewer input frames. These results show that allowing online, language-driven refinement of 3-D memory yields more informative representations without extra training or data collection.
- Abstract(参考訳): 構造化シーン表現はエンボディエージェントのコアコンポーネントであり、生の知覚ストリームを可読性、モジュール性、検索可能なフォーマットに統合するのに役立ちます。
高い計算オーバーヘッドのため、多くの手法がタスクの前にそのような表現を構築している。
しかし、タスク仕様が変更されると、キーオブジェクトや空間関係、詳細を見逃す可能性があるため、そのような静的アプローチは不十分になる。
GraphPadは、エージェントがAPI呼び出しを通じてタスクのニーズに合わせて調整できる、変更可能な構造化メモリである。
環境を表す可変なシーングラフと、フレームごとにインデックスするナビゲーションログと、タスク固有のノート用のスクラッチパッドとを備える。
同時に、GraphPadは、シーンとそのタスクに対するエージェントの即時理解に従って、完了し、現在の状態を維持した動的ワークスペースとして機能する。
OpenEQAベンチマークでは、GraphPadは55.3%、同じ視覚言語モデルを使用して画像のみのベースラインに対して+3.0%増加し、5倍の入力フレームで動作する。
これらの結果から,3次元メモリのオンライン改良により,余分なトレーニングやデータ収集を伴わずに,より情報に富む表現が得られることがわかった。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。