論文の概要: Describe Anything Anywhere At Any Moment
- arxiv url: http://arxiv.org/abs/2512.00565v1
- Date: Sat, 29 Nov 2025 17:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.300488
- Title: Describe Anything Anywhere At Any Moment
- Title(参考訳): あらゆるモメントでどんなものでも記述する
- Authors: Nicolas Gorlo, Lukas Schmid, Luca Carlone,
- Abstract要約: Describe Anything, at Anywhere Any Moment (DAAAM)は、大規模かつリアルタイムな4Dシーン理解のための新しいOC時間記憶フレームワークである。
DAAAMは4Dシーングラフ(SG)を構築し、グローバルかつ時間的に一貫したメモリ表現として機能する。
DAAAMの4D SGは,推論と推論のためのツールコールエージェントとうまく連携していることを示す。
- 参考スコア(独自算出の注目度): 14.08796231275217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision and robotics applications ranging from augmented reality to robot autonomy in large-scale environments require spatio-temporal memory frameworks that capture both geometric structure for accurate language-grounding as well as semantic detail. Existing methods face a tradeoff, where producing rich open-vocabulary descriptions comes at the expense of real-time performance when these descriptions have to be grounded in 3D. To address these challenges, we propose Describe Anything, Anywhere, at Any Moment (DAAAM), a novel spatio-temporal memory framework for large-scale and real-time 4D scene understanding. DAAAM introduces a novel optimization-based frontend to infer detailed semantic descriptions from localized captioning models, such as the Describe Anything Model (DAM), leveraging batch processing to speed up inference by an order of magnitude for online processing. It leverages such semantic understanding to build a hierarchical 4D scene graph (SG), which acts as an effective globally spatially and temporally consistent memory representation. DAAAM constructs 4D SGs with detailed, geometrically grounded descriptions while maintaining real-time performance. We show that DAAAM's 4D SG interfaces well with a tool-calling agent for inference and reasoning. We thoroughly evaluate DAAAM in the complex task of spatio-temporal question answering on the NaVQA benchmark and show its generalization capabilities for sequential task grounding on the SG3D benchmark. We further curate an extended OC-NaVQA benchmark for large-scale and long-time evaluations. DAAAM achieves state-of-the-art results in both tasks, improving OC-NaVQA question accuracy by 53.6%, position errors by 21.9%, temporal errors by 21.6%, and SG3D task grounding accuracy by 27.8% over the most competitive baselines, respectively. We release our data and code open-source.
- Abstract(参考訳): 大規模環境での拡張現実からロボット自律性まで、コンピュータビジョンとロボット工学の応用には、正確な言語接地のための幾何学的構造とセマンティックディテールの両方をキャプチャする時空間記憶フレームワークが必要である。
既存の手法はトレードオフに直面しており、これらの記述を3Dでグラウンド化する必要がある場合、リッチなオープン語彙記述を生成することはリアルタイムのパフォーマンスを犠牲にする。
これらの課題に対処するために,大規模かつリアルタイムな4Dシーン理解のための新しい時空間メモリフレームワークであるDescribe Anything, Anywhere, at Any Moment (DAAAM)を提案する。
DAAAMは、DAM(Describe Anything Model)のような局所的なキャプションモデルから詳細なセマンティック記述を推論するための、新しい最適化ベースのフロントエンドを導入している。
このような意味的理解を活用して階層的な4Dシーングラフ(SG)を構築する。
DAAAMは、リアルタイム性能を維持しながら、詳細な幾何学的根拠を持つ4D SGを構築する。
DAAAMの4D SGは,推論と推論のためのツールコールエージェントとうまく連携していることを示す。
本研究では,NAVQAベンチマークに基づく時空間質問応答の複雑なタスクにおけるDAAAMを徹底的に評価し,SG3Dベンチマークに基づく逐次タスクグラウンドの一般化能力を示す。
さらに、大規模・長期評価のための拡張OC-NaVQAベンチマークをキュレートする。
DAAAMは両方のタスクで最先端の結果を達成し、OC-NaVQAの質問精度を53.6%、位置誤差を21.9%、時間誤差を21.6%、SG3Dのタスク基底精度を27.8%改善した。
当社はデータとコードをオープンソースとして公開しています。
関連論文リスト
- STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence [81.94084852268468]
時間と3次元空間における音波力学の推論として定義される音声4次元インテリジェンスを形式化する。
STAR-Benchは、基礎的な音響知覚設定とホロスティックな時空間推論設定を組み合わせる。
データキュレーションパイプラインは、高品質なサンプルを保証するために2つの方法を使用します。
論文 参考訳(メタデータ) (2025-10-28T17:50:34Z) - Prompt-Guided Spatial Understanding with RGB-D Transformers for Fine-Grained Object Relation Reasoning [7.670666668651702]
我々は,Track 3 2025 AI City Challengeで導入された物理AI空間情報ウェアハウスデータセットに,専用の空間推論フレームワークを導入する。
提案手法は,入力プロンプトに直接マスク次元をバウンディングボックス座標の形で埋め込むことにより,空間的理解を高める。
私たちの包括的なパイプラインは73.0606の最終的なスコアを獲得し、全体の4位を公開リーダボードに位置づけています。
論文 参考訳(メタデータ) (2025-10-13T22:51:20Z) - SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - GroundFlow: A Plug-in Module for Temporal Reasoning on 3D Point Cloud Sequential Grounding [63.70576990506273]
3次元点雲(SG3D)における連続的な接地は、詳細なステップで日々の作業のためにテキスト命令に従うことによって、オブジェクトのシーケンスを探索することを指す。
現在の3Dビジュアルグラウンド法では,各ステップから有用な時間情報を抽出することなく,複数のステップでテキスト命令を処理している。
GroundFlow - 3Dポイントクラウドシーケンシャルグラウンド上での時間的推論のためのプラグインモジュール。
論文 参考訳(メタデータ) (2025-06-26T12:47:33Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。