論文の概要: Can Vision-Language Models Solve the Shell Game?
- arxiv url: http://arxiv.org/abs/2603.08436v1
- Date: Mon, 09 Mar 2026 14:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.206513
- Title: Can Vision-Language Models Solve the Shell Game?
- Title(参考訳): ビジョンランゲージモデルでシェルゲームは解けるか?
- Authors: Tiedong Liu, Wee Sun Lee,
- Abstract要約: VETベンチ(VET-Bench)は、時間的連続性によるトラッキングを必要とする、視覚的に同一の物体を特徴とする、総合的な診断テストベッドである。
本手法は,VET-Bench上で90%を超える最先端の精度を達成し,ヴィジュアル・ランゲージ・モデルが外部ツールを使わずに,映像シェル・ゲーム・タスクをエンド・ツー・エンドで確実に解決できることを実証した。
- 参考スコア(独自算出の注目度): 15.221979890090077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .
- Abstract(参考訳): 視覚的実体追跡は、人間の生まれつきの認知能力であるが、視覚言語モデル(VLM)にとって重要なボトルネックである。
この欠陥は、視覚的ショートカットによって、既存のビデオベンチマークでは曖昧にされることが多い。
VETベンチ(VET-Bench)は,時空間連続性によるトラッキングのみを必要とする,視覚的に同一の物体を特徴とする合成診断テストベッドである。
我々の実験では、現在の最先端のVLMは、VET-Bench上で、あるいはほぼ偶然に実行され、静的フレームレベルの機能への過度な依存と、時間とともにエンティティ表現を維持できないという、基本的な制限が明らかにされている。
本研究では、状態追跡問題と接続する理論解析を行い、固定深度変換器をベースとしたVLMが、表現性制約による中間的な監督を伴わずに、不明瞭な物体の追跡に基本的に制限されていることを証明した。
そこで我々はSGCoT(Spatiotemporal Grounded Chain-of-Thought)を提案する。
Molmo2のオブジェクト追跡機能を活用して、合成されたテキストのみのデータを微調整して、SGCoT推論を行う。
提案手法は,VET-Bench上で90%を超える最先端の精度を達成し,VLMが外部ツールを使わずに,ビデオシェルゲームタスクをエンドツーエンドで確実に解決できることを実証した。
私たちのコードとデータはhttps://vetbench.github.io.comで公開されています。
関連論文リスト
- TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs [24.299498301173255]
TimeBlindは、詳細な時間的理解のための診断ベンチマークである。
我々は600のインスタンスで20以上の最先端MLLMを評価した。
最高のMLLMのインスタンス精度は48.2%に過ぎず、人間のパフォーマンス(98.2%)をはるかに下回っている。
論文 参考訳(メタデータ) (2026-01-30T20:21:46Z) - Assessing Situational and Spatial Awareness of VLMs with Synthetically Generated Video [18.381850705061]
状況認識と空間認識の2つの相補的スキルを探索する総合的ベンチマークを導入する。
我々は、暴力と良心的活動の区別、視点にまたがる攻撃的役割の結合、微粒な軌道アライメントの判断の3つの課題をテストする。
結果は、タスク全体でパフォーマンスがわずかに上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-22T09:14:11Z) - Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions [18.455501447828343]
空間知能(SI)は視覚言語モデル(VLM)に大きく依存している
画素レベルの入力を必要としない大規模言語モデル(LLM)のSI性能を評価するために設計された新しいベンチマークであるSiT-Benchを紹介する。
空間的推論により性能が著しく向上し,LLMには潜在的世界モデリングの可能性があることが示唆された。
論文 参考訳(メタデータ) (2026-01-07T05:13:52Z) - VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation [61.82502719679122]
本稿では,Versatile, Embodied, Realistic Simulation, EvaluationのベンチマークであるVLNVerseを紹介する。
VLNVerseは、スケーラブルでフルスタックのAI問題としてVLNを再定義する。
ベンチマーク内の全てのタスクに対処できる新しいマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:27:26Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models [63.12671761097701]
視覚言語モデル(Ms)は、移動距離や移動物体の速度などの要素を分析するのに苦労する。
我々はSTKitとST-Benchと呼ばれるベンチマークデータセットを構築した。
本稿では,ST-VLMが多様な領域やタスクにまたがって頑健に一般化されていることを示す。
論文 参考訳(メタデータ) (2025-03-25T05:08:06Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。