論文の概要: RenderMem: Rendering as Spatial Memory Retrieval
- arxiv url: http://arxiv.org/abs/2603.14669v1
- Date: Sun, 15 Mar 2026 23:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.954419
- Title: RenderMem: Rendering as Spatial Memory Retrieval
- Title(参考訳): RenderMem:空間記憶検索としてのレンダリング
- Authors: JooHyun Park, HyeongYeop Kang,
- Abstract要約: 身体的推論は本質的に視点に依存している。
本稿では3次元世界表現と空間推論のインターフェースとしてレンダリングを扱う空間記憶フレームワークRenderMemを紹介する。
- 参考スコア(独自算出の注目度): 3.781421673607643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied reasoning is inherently viewpoint-dependent: what is visible, occluded, or reachable depends critically on where the agent stands. However, existing spatial memory systems for embodied agents typically store either multi-view observations or object-centric abstractions, making it difficult to perform reasoning with explicit geometric grounding. We introduce RenderMem, a spatial memory framework that treats rendering as the interface between 3D world representations and spatial reasoning. Instead of storing fixed observations, RenderMem maintains a 3D scene representation and generates query-conditioned visual evidence by rendering the scene from viewpoints implied by the query. This enables embodied agents to reason directly about line-of-sight, visibility, and occlusion from arbitrary perspectives. RenderMem is fully compatible with existing vision-language models and requires no modification to standard architectures. Experiments in the AI2-THOR environment show consistent improvements on viewpoint-dependent visibility and occlusion queries over prior memory baselines.
- Abstract(参考訳): 身体的推論は本質的に視点に依存しており、何が見えるか、排除されるか、到達可能かは、エージェントがどこに立つかに批判的に依存する。
しかし、既存のエンボディエージェントのための空間記憶システムは、通常、多視点観測またはオブジェクト中心の抽象化を格納しており、明示的な幾何学的基礎付けで推論を行うのが困難である。
本稿では3次元世界表現と空間推論のインターフェースとしてレンダリングを扱う空間記憶フレームワークRenderMemを紹介する。
固定された観察を格納する代わりに、RenderMemは3Dシーン表現を維持し、クエリが入力した視点からシーンをレンダリングすることで、クエリ条件の視覚的エビデンスを生成する。
これにより、インボディードエージェントは、任意の視点から視線、可視性、および排他性について直接推論することができる。
RenderMemは既存のビジョン言語モデルと完全に互換性があり、標準アーキテクチャの変更を必要としない。
AI2-THOR環境での実験では、以前のメモリベースラインよりも視点依存の可視性と閉塞クエリが一貫した改善が見られた。
関連論文リスト
- Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation [4.039245878626346]
Text-goal instance navigation (TGIN)は、エージェントに単一の自由形式の記述を正しいオブジェクトインスタンスに到達するアクションに解決するよう要求する。
ローカルキューからグローバルな探索に先立ってコンテキストキャプションを上昇させ、3次元空間推論により候補を検証するtextitContext-Nav を提案する。
論文 参考訳(メタデータ) (2026-03-10T11:08:35Z) - RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations [70.83499963694238]
RnG(Reconstruction and Generation)は、再構成と生成を統合する新しいフィードフォワードトランスである。
可視的幾何学を再構築し、可視的でコヒーレントな不明瞭な幾何学と外観を生成する。
提案手法は, 一般化可能な3次元再構成と新しいビュー生成の両方において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-01T17:25:32Z) - SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation [32.15143378003745]
閉包推論は、深度に一貫性のある幾何学とスケールを持つ部分閉包対象に対して必要不可欠である。
本稿では,オクルージョンを明示的にモデル化した3次元レイアウト条件付き生成モデルであるSeeeThrough3Dを提案する。
論文 参考訳(メタデータ) (2026-02-26T18:59:05Z) - Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - SCORP: Scene-Consistent Object Refinement via Proxy Generation and Tuning [46.441761732998536]
プロキシジェネレーションとチューニング(SCORP)によるシーン一貫性オブジェクトリファインメント(Scene-Consistent Object Refinement)について紹介する。
SCORP は、3D 生成に先立って細粒度なオブジェクトの形状と外観を復元する新しい3D拡張フレームワークである。
これは、新しいビュー合成と幾何完成タスクの両方において、最近の最先端のベースラインに対して一貫した利得を達成する。
論文 参考訳(メタデータ) (2025-06-30T13:26:21Z) - Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation [22.8031613567025]
Part-Aware Network (PANet) は、航空機の翼や尾などの3Dオブジェクトの異なる部分のローカライズと理解を目的としている。
提案手法は,任意のビュー下での3次元オブジェクト認識処理において,既存のビューベースアグリゲーションベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-04T11:16:47Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。