論文の概要: Thinking with Spatial Code for Physical-World Video Reasoning
- arxiv url: http://arxiv.org/abs/2603.05591v1
- Date: Thu, 05 Mar 2026 19:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.297201
- Title: Thinking with Spatial Code for Physical-World Video Reasoning
- Title(参考訳): 物理世界ビデオ推論のための空間符号による思考
- Authors: Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille,
- Abstract要約: 空間コードによる思考は、RGB動画を明示的で時間的に整合した3D表現に変換するフレームワークである。
提案する空間エンコーダは,映像を3次元有界ボックスとセマンティックラベルで構造化された空間コードに解析できるという経験的発見を強調した。
- 参考スコア(独自算出の注目度): 27.397518169065634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Thinking with Spatial Code, a framework that transforms RGB video into explicit, temporally coherent 3D representations for physical-world visual question answering. We highlight the empirical finding that our proposed spatial encoder can parse videos into structured spatial code with explicit 3D oriented bounding boxes and semantic labels, enabling large language models (LLMs) to reason directly over explicit spatial variables. Specifically, we propose the spatial encoder that encodes image and geometric features by unifying 6D object parsing and tracking backbones with geometric prediction, and we further finetuning LLMs with reinforcement learning using a spatial rubric reward that encourages perspective-aware, geometrically grounded inference. As a result, our model outperforms proprietary vision-language models on VSI-Bench, setting a new state-of-the-art. Code is available at https://github.com/Beckschen/spatialcode.
- Abstract(参考訳): 本稿では,RGB動画を物理世界における視覚的質問応答のための,時間的コヒーレントな3D表現に変換するフレームワークであるThinking with Spatial Codeを紹介する。
提案する空間エンコーダは3次元境界ボックスとセマンティックラベルを用いて,映像を構造化空間コードに解析し,大規模言語モデル(LLM)が空間変数を直接解析できることを示す。
具体的には,画像と幾何学的特徴を符号化する空間エンコーダを提案し,幾何学的予測で背骨を解析・追跡する。
その結果、VSI-Benchでは独自のビジョン言語モデルよりも優れており、新たな最先端技術が確立されている。
コードはhttps://github.com/Beckschen/spatialcode.comで入手できる。
関連論文リスト
- Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning [43.746951848993035]
空間知能は、明示的な空間的インストラクションチューニングによって課されるのではなく、2次元視覚のみから現れる。
本稿では,未提示のマルチビュー画像から直接,空間表現の統一化を学習する,自己教師型フレームワークであるSpa3Rを紹介する。
実験では、Spa3-VLMが3D VQAで58.6%の最先端の精度を達成し、従来の方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-02-24T18:37:34Z) - UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [65.60549881706959]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。