論文の概要: R4: Retrieval-Augmented Reasoning for Vision-Language Models in 4D Spatio-Temporal Space
- arxiv url: http://arxiv.org/abs/2512.15940v1
- Date: Wed, 17 Dec 2025 20:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.810233
- Title: R4: Retrieval-Augmented Reasoning for Vision-Language Models in 4D Spatio-Temporal Space
- Title(参考訳): R4:4次元空間空間における視覚言語モデルの検索強化推論
- Authors: Tin Stribor Sohn, Maximilian Dillitzer, Jason J. Corso, Eric Sax,
- Abstract要約: R4は、4D空間における検索強化推論のためのトレーニング不要のフレームワークである。
R4は、計量空間と時間におけるオブジェクトレベルのセマンティック記述をアンカーすることで、4Dデータベースを構築する。
推論では、自然言語クエリは意味、空間、時間キーに分解され、関連する観測値を取得する。
- 参考スコア(独自算出の注目度): 11.93789125154006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans perceive and reason about their surroundings in four dimensions by building persistent, structured internal representations that encode semantic meaning, spatial layout, and temporal dynamics. These multimodal memories enable them to recall past events, infer unobserved states, and integrate new information into context-dependent reasoning. Inspired by this capability, we introduce R4, a training-free framework for retrieval-augmented reasoning in 4D spatio-temporal space that equips vision-language models (VLMs) with structured, lifelong memory. R4 continuously constructs a 4D knowledge database by anchoring object-level semantic descriptions in metric space and time, yielding a persistent world model that can be shared across agents. At inference, natural language queries are decomposed into semantic, spatial, and temporal keys to retrieve relevant observations, which are integrated into the VLM's reasoning. Unlike classical retrieval-augmented generation methods, retrieval in R4 operates directly in 4D space, enabling episodic and collaborative reasoning without training. Experiments on embodied question answering and navigation benchmarks demonstrate that R4 substantially improves retrieval and reasoning over spatio-temporal information compared to baselines, advancing a new paradigm for embodied 4D reasoning in dynamic environments.
- Abstract(参考訳): 人間は、意味的意味、空間的レイアウト、時間的ダイナミクスをエンコードする永続的で構造化された内部表現を構築することで、周囲を4次元で知覚し、推論する。
これらのマルチモーダル記憶は、過去の出来事を思い出し、観測されていない状態を推測し、新しい情報を文脈依存の推論に統合することを可能にする。
この能力にインスパイアされたR4は、4次元時空間における検索強化推論のためのトレーニング不要なフレームワークであり、構造化された生涯記憶を持つ視覚言語モデル(VLM)を具備する。
R4は、オブジェクトレベルのセマンティック記述を計量空間と時間に固定し、エージェント間で共有可能な永続的な世界モデルを生成することで、4Dの知識データベースを継続的に構築する。
推論において、自然言語クエリは意味、空間、時間キーに分解され、関連する観測を検索し、VLMの推論に統合される。
古典的な検索拡張生成法とは異なり、R4の検索は4次元空間で直接動作し、訓練なしでエピソード的および協調的推論を可能にする。
具体的質問応答とナビゲーションベンチマークの実験により、R4はベースラインと比較して時空間情報の検索と推論を大幅に改善し、動的環境における4D推論を具体化するための新しいパラダイムを推し進めた。
関連論文リスト
- SNOW: Spatio-Temporal Scene Understanding with World Knowledge for Open-World Embodied Reasoning [11.93789125154006]
本稿では,VLMから派生したセマンティクスと点雲の幾何と時間的整合性を統合した4次元シーン理解フレームワークを提案する。
SNOWプロセスは、HDBSCANクラスタリングを使用して、同期された3Dポイントクラウドを同期し、セグメンテーション提案を生成する。
多様なベンチマークの実験により、SNOWは正確な4Dシーンの理解と空間的接地推論を可能にした。
論文 参考訳(メタデータ) (2025-12-18T12:27:06Z) - STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence [81.94084852268468]
時間と3次元空間における音波力学の推論として定義される音声4次元インテリジェンスを形式化する。
STAR-Benchは、基礎的な音響知覚設定とホロスティックな時空間推論設定を組み合わせる。
データキュレーションパイプラインは、高品質なサンプルを保証するために2つの方法を使用します。
論文 参考訳(メタデータ) (2025-10-28T17:50:34Z) - Understanding Dynamic Scenes in Ego Centric 4D Point Clouds [7.004204907286336]
EgoDynamic4Dは、非常にダイナミックなシーンに関する新しいQAベンチマークである。
エージェントの動作,人間と物体の相互作用予測,関係,軌道の理解,時間・因果推論,詳細な指標を含む12の動的QAタスクを設計する。
提案手法は,エゴ中心の動的シーン理解のためのマルチモーダル時間モデルの有効性を検証し,ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-10T09:08:04Z) - Reconstructing 4D Spatial Intelligence: A Survey [57.8684548664209]
視覚観測から4D空間インテリジェンスを再構築することは、長い間、コンピュータビジョンにおける中心的かつ困難な課題であった。
我々は,既存の手法を5つの段階の4次元空間知能に整理する新たな視点を提案する。
論文 参考訳(メタデータ) (2025-07-28T17:59:02Z) - LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding [55.81291976637705]
視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。
このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。
4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
論文 参考訳(メタデータ) (2025-05-18T06:18:57Z) - ST-Think: How Multimodal Large Language Models Reason About 4D Worlds from Ego-Centric Videos [8.279721795956124]
人間は空間的時間的推論において優れ、エゴセントリックな視点から動的視覚事象を熱心に解釈する。
本稿では,人間のような推論能力を持つMLLMの装備を目指して,エゴセントリックな視点からマルチモーダルな時空間推論を考察する。
論文 参考訳(メタデータ) (2025-03-16T15:24:11Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering [23.04702935216809]
我々はDynSuperCLEVRを紹介した。DynSuperCLEVRは3Dオブジェクトの動的特性の言語理解に焦点を当てた最初のビデオ質問応答データセットである。
現実的なクエリ、将来の予測、そして反現実的推論を含む3種類の質問を生成する。
提案手法は,まず物理前駆体を用いた3次元生成モデルを用いて4次元世界状態を推定し,その4次元世界状態に基づく疑問に答えるために,ニューラルシンボリック推論を用いる。
論文 参考訳(メタデータ) (2024-06-02T05:51:15Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。