論文の概要: Assessing Situational and Spatial Awareness of VLMs with Synthetically Generated Video
- arxiv url: http://arxiv.org/abs/2601.15780v1
- Date: Thu, 22 Jan 2026 09:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.556051
- Title: Assessing Situational and Spatial Awareness of VLMs with Synthetically Generated Video
- Title(参考訳): 合成映像によるVLMの状況と空間的認識の評価
- Authors: Pascal Benschop, Justin Dauwels, Jan van Gemert,
- Abstract要約: 状況認識と空間認識の2つの相補的スキルを探索する総合的ベンチマークを導入する。
我々は、暴力と良心的活動の区別、視点にまたがる攻撃的役割の結合、微粒な軌道アライメントの判断の3つの課題をテストする。
結果は、タスク全体でパフォーマンスがわずかに上回っていることを示している。
- 参考スコア(独自算出の注目度): 18.381850705061
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spatial reasoning in vision language models (VLMs) remains fragile when semantics hinge on subtle temporal or geometric cues. We introduce a synthetic benchmark that probes two complementary skills: situational awareness (recognizing whether an interaction is harmful or benign) and spatial awareness (tracking who does what to whom, and reasoning about relative positions and motion). Through minimal video pairs, we test three challenges: distinguishing violence from benign activity, binding assailant roles across viewpoints, and judging fine-grained trajectory alignment. While we evaluate recent VLMs in a training-free setting, the benchmark is applicable to any video classification model. Results show performance only slightly above chance across tasks. A simple aid, stable color cues, partly reduces assailant role confusions but does not resolve the underlying weakness. By releasing data and code, we aim to provide reproducible diagnostics and seed exploration of lightweight spatial priors to complement large-scale pretraining.
- Abstract(参考訳): 視覚言語モデル(VLM)における空間的推論は、意味論が微妙な時間的または幾何学的な手がかりにヒンジするときも脆弱である。
本研究では、状況認識(相互作用が有害か良性かを認識する)と空間認識(誰に何をするかを追跡する)の2つの相補的スキルを探索する総合的ベンチマークを導入する。
最小限のビデオペアを通して、暴力を良心的活動と区別すること、視点を越えて攻撃的役割を結合すること、微粒な軌道アライメントを判断することの3つの課題をテストする。
近年のVLMをトレーニング不要な環境で評価する一方で、このベンチマークは任意のビデオ分類モデルに適用できる。
結果は、タスク全体でパフォーマンスがわずかに上回っていることを示している。
単純な補助剤、安定した色の手がかりは、部分的に攻撃的役割の混乱を減少させるが、根底にある弱点を解決しない。
データとコードを公開することにより、大規模な事前学習を補完するために、再現可能な診断と軽量空間事前の種探索を提供することを目指している。
関連論文リスト
- Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:11:24Z) - From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。
特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。
Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文 参考訳(メタデータ) (2025-06-30T05:01:40Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - Unveiling the Tapestry of Consistency in Large Vision-Language Models [25.106467574467448]
提案手法は,プロンプトの解空間が知識点を中心に回転するときに,LVLMがどう機能するかを直感的に解析するベンチマークである。
ConBenchツールに基づいて、タペストリーを最初に公開し、以下の結果を得た。
我々は,本論文が研究コミュニティのモデル評価を加速し,一貫性領域の今後の進歩を促進することを願っている。
論文 参考訳(メタデータ) (2024-05-23T04:08:23Z) - Visual Spatial Reasoning [35.5155400193075]
66種類の空間的関係を持つ10k以上の自然なテキストイメージ対を含むデータセットを英語で提示する。
このデータセットは,参照フレームの変動など,難易度の高い言語現象を含むことを示す。
人間の天井は95%以上であり、最先端モデルは70%程度しか達成できない。
論文 参考訳(メタデータ) (2022-04-30T23:03:49Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。