論文の概要: LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.19261v1
- Date: Mon, 24 Nov 2025 16:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.300445
- Title: LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models
- Title(参考訳): LAST: 一般のビジョンランゲージモデルのための空間と時間を考えるLeArning
- Authors: Shuai Wang, Daoan Zhang, Tianyi Bai, Shitong Shao, Jiebo Luo, Jiaheng Wei,
- Abstract要約: 一般的な視覚言語モデルにおける3次元空間的および長時間の映像理解を改善するために,LASTを提案する。
LASTは,3つの空間的理解,4つの映像理解,3つの画像理解タスクを含む,様々なベンチマークにおいて大きな利益をもたらすことを示す。
- 参考スコア(独自算出の注目度): 50.50563228383038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can perceive and understand 3D space and long videos from sequential visual observations. But do vision-language models (VLMs) can? Recent work demonstrates that even state-of-the-art VLMs still struggle to understand 3D space and long videos, although they are powerful in typical vision-language tasks. Current methods often rely on specialized architectural designs to improve performance for 3D tasks and video understanding tasks separately. In contrast, we propose LAST, short for LeArn to Think in Space and Time, to jointly improve 3D spatial and long video understanding for general VLMs with only a set of 2D images as inputs. LAST makes VLMs think in space and time rather than only with text before giving the final answer, building visual thinking trajectories in 3D space and temporal dimension. We demonstrate the effectiveness of LAST in two scenarios: 1) zero-shot, where we directly prompt proprietary models; and 2) fine-tuning general VLMs with data that include thinking trajectories in 3D space and time. We show that LAST brings substantial gains in various benchmarks, including 3 spatial understanding, 4 video understanding, and 3 image understanding tasks. Notably, 15.8% gains on EgoSchema with GPT-4o in a zero-shot manner and 8.3 gains on VSI-Bench compared with Qwen2.5-VL-7B.
- Abstract(参考訳): 人間は連続した視覚的な観察から3D空間と長いビデオを理解し理解することができる。
しかし、視覚言語モデル(VLM)は可能だろうか?
最近の研究は、最先端のVLMでさえ3D空間や長いビデオを理解するのに苦戦していることを示している。
現在の手法は、しばしば3Dタスクとビデオ理解タスクを別々に改善するために、特別なアーキテクチャ設計に依存している。
対照的に、LAST(Learn to Think in Space and Time)は2次元画像のみを入力として、一般的なVLMの3次元空間と長時間の映像理解を協調的に改善する。
LASTは、VLMを3次元空間と時間次元に視覚的思考軌道を構築することで、最後の答えを与える前にテキストでのみ考えるのではなく、空間と時間で考えるようにする。
LASTの有効性を2つのシナリオで示す。
1)ゼロショットでは、プロプライエタリなモデルを直接プロンプトします。
2)3次元空間と時間における思考軌跡を含むデータを用いた微調整一般VLM。
LASTは,3つの空間的理解,4つの映像理解,3つの画像理解タスクを含む,様々なベンチマークにおいて大きな利益をもたらすことを示す。
特に、GPT-4oでEgoSchemaで15.8%、VSI-Benchで8.3、Qwen2.5-VL-7Bで8.8%が上昇した。
関連論文リスト
- Think3D: Thinking with Space for Spatial Reasoning [54.518667686880114]
本稿では,視覚大モデル(VLM)を3次元空間で考えることを可能にするフレームワークであるThink3Dを紹介する。
追加のトレーニングがなければ、Think3Dは高度なモデルの空間推論性能を大幅に改善する。
本研究は,マルチモーダルエージェントのより柔軟で人間らしい3D推論への道筋として,無トレーニングでツールを付加した空間探索が有効であることを示す。
論文 参考訳(メタデータ) (2026-01-19T13:13:54Z) - G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning [36.62798449863548]
VLM(Vision-Language Models)は、空間知能にはまだ堅牢性がない。
G$2$VLMは空間知能の2つの基本的な側面を橋渡しする視覚言語モデルである。
論文 参考訳(メタデータ) (2025-11-26T18:59:39Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - MindJourney: Test-Time Scaling with World Models for Spatial Reasoning [97.61985090279961]
視覚言語モデルのためのテスト時間スケーリングフレームワークであるMindJourneyを提案する。
我々は,代表的空間推論ベンチマークSATにおいて,MindJourneyが平均7.7%以上の性能向上を達成したことを示す。
また,本手法は,強化学習により訓練した試験時間推定VLMも改善する。
論文 参考訳(メタデータ) (2025-07-16T17:59:36Z) - Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors [24.261272070476934]
これまで,ビデオとして解釈することで3次元シーンの理解にMLLM(Multimodal Large Language Models)を適用する研究が続けられてきた。
ビデオ3次元幾何大言語モデル(VG LLM)と呼ばれる新しい,効率的な手法を提案する。
提案手法では,映像系列から3次元先行情報を抽出するために3次元ビジュアルジオメトリエンコーダを用いる。
論文 参考訳(メタデータ) (2025-05-30T14:16:41Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models [39.488763757826426]
2次元視覚言語モデル(VLM)は、画像テキスト理解タスクにおいて大きな進歩を遂げている。
近年の進歩は、3Dポイントクラウドとマルチビューイメージを入力として活用し、有望な結果をもたらしている。
人間の知覚にインスパイアされた視覚ベースのソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:59Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。