論文の概要: Bridging Vision Language Models and Symbolic Grounding for Video Question Answering
- arxiv url: http://arxiv.org/abs/2509.11862v1
- Date: Mon, 15 Sep 2025 12:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.280831
- Title: Bridging Vision Language Models and Symbolic Grounding for Video Question Answering
- Title(参考訳): ビデオ質問応答のためのブリッジング視覚言語モデルとシンボリックグラウンド
- Authors: Haodi Ma, Vyom Pathak, Daisy Zhe Wang,
- Abstract要約: Video Question Answering (VQA) は、ビデオにおける空間的、時間的、因果的な手がかりを推論するモデルを必要とする。
最近の視覚言語モデル(VLM)は強い結果を得るが、しばしば浅い相関に頼り、時間的基盤の弱さと限定的な解釈可能性をもたらす。
シンボルシーングラフ(SG)をVQAの中間グラウンド信号として検討する。
本稿では,凍結したVLMとシーングラフのグラウンド化を,プロンプトと視覚的ローカライゼーションを通じて統合するモジュラーフレームワークであるSG-VLMを紹介する。
- 参考スコア(独自算出の注目度): 4.215692222461999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VQA) requires models to reason over spatial, temporal, and causal cues in videos. Recent vision language models (VLMs) achieve strong results but often rely on shallow correlations, leading to weak temporal grounding and limited interpretability. We study symbolic scene graphs (SGs) as intermediate grounding signals for VQA. SGs provide structured object-relation representations that complement VLMs holistic reasoning. We introduce SG-VLM, a modular framework that integrates frozen VLMs with scene graph grounding via prompting and visual localization. Across three benchmarks (NExT-QA, iVQA, ActivityNet-QA) and multiple VLMs (QwenVL, InternVL), SG-VLM improves causal and temporal reasoning and outperforms prior baselines, though gains over strong VLMs are limited. These findings highlight both the promise and current limitations of symbolic grounding, and offer guidance for future hybrid VLM-symbolic approaches in video understanding.
- Abstract(参考訳): Video Question Answering (VQA) は、ビデオにおける空間的、時間的、因果的な手がかりを推論するモデルを必要とする。
最近の視覚言語モデル(VLM)は強い結果を得るが、しばしば浅い相関に頼り、時間的基盤の弱さと限定的な解釈可能性をもたらす。
シンボルシーングラフ(SG)をVQAの中間グラウンド信号として検討する。
SGは、VLMの全体論的推論を補完する構造化されたオブジェクト関係表現を提供する。
本稿では,凍結したVLMとシーングラフのグラウンド化を,プロンプトと視覚的ローカライゼーションを通じて統合するモジュラーフレームワークであるSG-VLMを紹介する。
3つのベンチマーク(NExT-QA、iVQA、ActivityNet-QA)と複数のVLM(QwenVL、InternVL)にまたがって、SG-VLMは因果的および時間的推論を改善し、以前のベースラインより優れているが、強いVLMよりも優れている。
これらの知見は,映像理解における将来的なVLM-シンボリックアプローチの指針として,象徴的グラウンドの約束と現在の限界の両方を浮き彫りにした。
関連論文リスト
- SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer [14.669949808424409]
VLM(Vision-Language Models)は、自律運転や人間とコンピュータのインタラクションといったリアルタイムアプリケーションにますます普及している。
既存のシステムでは、分割されたLVLM(Large Vision-Language Models)やタスクオフロード戦略が一般的である。
本稿では,LVLMの遅延出力を歴史的文脈として扱う,新しいクラウドエッジ協調パラダイムであるContext Transferを提案する。
論文 参考訳(メタデータ) (2025-08-18T05:51:41Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models [27.5219975853389]
事前学習された視覚・言語モデル (VLM) と大規模言語モデル (LLM) は,様々な視覚コモンセンス推論問題に長けている。
画像内容以外の結論を推測することが目的である場合、VLMは困難に直面し、LLMは十分な視覚的証拠を与えられた場合、その答えをよく推測するために常識を使用することができる。
論文 参考訳(メタデータ) (2023-10-09T17:10:35Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。