論文の概要: Bridging Vision Language Models and Symbolic Grounding for Video Question Answering
- arxiv url: http://arxiv.org/abs/2509.11862v1
- Date: Mon, 15 Sep 2025 12:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.280831
- Title: Bridging Vision Language Models and Symbolic Grounding for Video Question Answering
- Title(参考訳): ビデオ質問応答のためのブリッジング視覚言語モデルとシンボリックグラウンド
- Authors: Haodi Ma, Vyom Pathak, Daisy Zhe Wang,
- Abstract要約: Video Question Answering (VQA) は、ビデオにおける空間的、時間的、因果的な手がかりを推論するモデルを必要とする。
最近の視覚言語モデル(VLM)は強い結果を得るが、しばしば浅い相関に頼り、時間的基盤の弱さと限定的な解釈可能性をもたらす。
シンボルシーングラフ(SG)をVQAの中間グラウンド信号として検討する。
本稿では,凍結したVLMとシーングラフのグラウンド化を,プロンプトと視覚的ローカライゼーションを通じて統合するモジュラーフレームワークであるSG-VLMを紹介する。
- 参考スコア(独自算出の注目度): 4.215692222461999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VQA) requires models to reason over spatial, temporal, and causal cues in videos. Recent vision language models (VLMs) achieve strong results but often rely on shallow correlations, leading to weak temporal grounding and limited interpretability. We study symbolic scene graphs (SGs) as intermediate grounding signals for VQA. SGs provide structured object-relation representations that complement VLMs holistic reasoning. We introduce SG-VLM, a modular framework that integrates frozen VLMs with scene graph grounding via prompting and visual localization. Across three benchmarks (NExT-QA, iVQA, ActivityNet-QA) and multiple VLMs (QwenVL, InternVL), SG-VLM improves causal and temporal reasoning and outperforms prior baselines, though gains over strong VLMs are limited. These findings highlight both the promise and current limitations of symbolic grounding, and offer guidance for future hybrid VLM-symbolic approaches in video understanding.
- Abstract(参考訳): Video Question Answering (VQA) は、ビデオにおける空間的、時間的、因果的な手がかりを推論するモデルを必要とする。
最近の視覚言語モデル(VLM)は強い結果を得るが、しばしば浅い相関に頼り、時間的基盤の弱さと限定的な解釈可能性をもたらす。
シンボルシーングラフ(SG)をVQAの中間グラウンド信号として検討する。
SGは、VLMの全体論的推論を補完する構造化されたオブジェクト関係表現を提供する。
本稿では,凍結したVLMとシーングラフのグラウンド化を,プロンプトと視覚的ローカライゼーションを通じて統合するモジュラーフレームワークであるSG-VLMを紹介する。
3つのベンチマーク(NExT-QA、iVQA、ActivityNet-QA)と複数のVLM(QwenVL、InternVL)にまたがって、SG-VLMは因果的および時間的推論を改善し、以前のベースラインより優れているが、強いVLMよりも優れている。
これらの知見は,映像理解における将来的なVLM-シンボリックアプローチの指針として,象徴的グラウンドの約束と現在の限界の両方を浮き彫りにした。
関連論文リスト
- VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models [43.09726338623949]
Vision-Language-Action(VLA)モデルは、事前訓練された大規模なVision-Language Models(VLM)をポリシーバックボーンに統合する。
本稿では、VLMの選択と能力が下流のVLAポリシーのパフォーマンスにどのように変換されるかという、体系的に研究されることは滅多にない。
VLM4VLAは、汎用的なVLMを、学習可能なパラメータの小さなセットのみを用いてVLAポリシーに変換する、最小限の適応パイプラインである。
論文 参考訳(メタデータ) (2026-01-06T09:58:24Z) - VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation [18.15310805625469]
VOST-SGGはVLMが支援するワンステージST-SGGフレームワークであり、視覚言語モデルの常識推論機能を統合する。
述語分類を改善するために,視覚,テキスト,空間的手がかりを融合したマルチモーダル特徴バンクを提案する。
提案手法は,ST-SGGにおけるVLM支援型セマンティックプリエントとマルチモーダル機能の統合の有効性を検証し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-05T08:34:06Z) - Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - iFinder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning [51.15353027471834]
iFinderは、ダッシュカムのビデオを大規模な言語モデルのための階層的で解釈可能なデータ構造に変換するセマンティックグラウンドディングフレームワークである。
iFinderはトレーニング不要のパイプラインとして動作し、トレーニング済みの視覚モデルを使用して重要な手がかりを抽出する。
これは、4つのゼロショット駆動ベンチマークにおいて、エンドツーエンドのV-VLMよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-09-23T20:25:53Z) - SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer [14.669949808424409]
VLM(Vision-Language Models)は、自律運転や人間とコンピュータのインタラクションといったリアルタイムアプリケーションにますます普及している。
既存のシステムでは、分割されたLVLM(Large Vision-Language Models)やタスクオフロード戦略が一般的である。
本稿では,LVLMの遅延出力を歴史的文脈として扱う,新しいクラウドエッジ協調パラダイムであるContext Transferを提案する。
論文 参考訳(メタデータ) (2025-08-18T05:51:41Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models [27.5219975853389]
事前学習された視覚・言語モデル (VLM) と大規模言語モデル (LLM) は,様々な視覚コモンセンス推論問題に長けている。
画像内容以外の結論を推測することが目的である場合、VLMは困難に直面し、LLMは十分な視覚的証拠を与えられた場合、その答えをよく推測するために常識を使用することができる。
論文 参考訳(メタデータ) (2023-10-09T17:10:35Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。