論文の概要: Foundational Question Generation for Video Question Answering via an Embedding-Integrated Approach
- arxiv url: http://arxiv.org/abs/2511.17618v1
- Date: Tue, 18 Nov 2025 13:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.297628
- Title: Foundational Question Generation for Video Question Answering via an Embedding-Integrated Approach
- Title(参考訳): 埋め込み型アプローチによるビデオ質問応答のための基礎的質問生成
- Authors: Ju-Young Oh,
- Abstract要約: 埋め込み型アプローチ(FIQ)によるビデオ質問に対する基礎的質問生成について紹介する。
FIQは、ビデオコンテンツの基本的な理解を改善し、VQAモデルの推論能力を高めるために設計されたフレームワークである。
SUTD-TrafficQAデータセットの実験結果は、FIQが最先端のパフォーマンスを達成し、既存のベースラインアプローチを超えることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional VQA approaches primarily rely on question-answer (Q&A) pairs to learn the spatio-temporal dynamics of video content. However, most existing annotations are event-centric, which restricts the model's ability to capture the comprehensive context of a scene. The lack of fundamental information such as object categories, spatial configurations, and descriptive visual attributes prevents the model from forming a complete understanding of the environment, ultimately limiting its generalization and reasoning capability. In this paper, we introduce Foundational Question Generation for Video Question Answering via an Embedding-Integrated Approach (FIQ), a framework designed to enhance the reasoning capability of VQA models by improving their foundational comprehension of video content. FIQ generates Q&A pairs from descriptive information extracted directly from videos, thereby enriching the dataset with core scene-level attributes. These generated pairs help the model develop a more holistic understanding of the video, leading to improved generalizability and reasoning performance. In addition, we propose a VQ-CAlign module that aligns task-specific question embeddings with corresponding visual features, preserving essential contextual cues and enhancing adaptability to downstream tasks. Experimental results on the SUTD-TrafficQA dataset demonstrate that FIQ achieves state-of-the-art performance, surpassing existing baseline approaches.
- Abstract(参考訳): 従来のVQAアプローチは主に、ビデオコンテンツの時空間的ダイナミクスを学ぶために質問応答(Q&A)ペアに依存している。
しかしながら、既存のアノテーションのほとんどはイベント中心であり、シーンの包括的なコンテキストをキャプチャするモデルの能力を制限する。
オブジェクトカテゴリや空間構成、記述的視覚属性といった基本的な情報が欠如しているため、モデルが環境を完全に理解できないため、最終的には一般化と推論能力が制限される。
本稿では,VQAモデルの基本的理解を向上させることで,VQAモデルの推論能力を高めるためのフレームワークである,埋め込み型アプローチ(FIQ)によるビデオ質問応答のための基礎的質問生成について紹介する。
FIQはビデオから直接抽出された記述情報からQ&Aペアを生成し、コアシーンレベルの属性でデータセットを強化する。
これらの生成されたペアは、モデルがより全体論的にビデオを理解するのに役立つため、一般化性と推論性能が向上する。
さらに,VQ-CAlignモジュールを提案し,タスク固有の質問の埋め込みを対応する視覚的特徴と整合させ,重要なコンテキスト的手がかりを保存し,下流タスクへの適応性を向上させる。
SUTD-TrafficQAデータセットの実験結果は、FIQが最先端のパフォーマンスを達成し、既存のベースラインアプローチを超えることを示した。
関連論文リスト
- FIQ: Fundamental Question Generation with the Integration of Question Embeddings for Video Question Answering [26.585985828583304]
ビデオ質問(英語: Video question of answering、VQA)とは、ある質問に答えるためにビデオの解釈を必要とするタスクである。
本稿では,ビデオの基本的な理解を深めることにより,モデルの推論能力を高めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T06:19:38Z) - ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。
ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - REVEAL: Relation-based Video Representation Learning for Video-Question-Answering [14.867263291053968]
本稿では,リレーションに基づくrEpresentAtion Learning(REVEAL)を提案する。
バイテンポラルなシーングラフにインスパイアされたビデオシーケンスは、言語埋め込みを通して、時間とともに(サブジェクト・プレディケート・オブジェクト)の形で、関係三重項の集合としてエンコードする。
提案手法を,NeXT-QA,Intent-QA,STAR,VLEP,TVQAの5つのベンチマークで評価した。
論文 参考訳(メタデータ) (2025-04-07T19:54:04Z) - Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering [13.294004180200496]
我々は,マルチモーダルな知識をよりよく統合する3つの主要なイノベーションを取り入れたローカル・グローバル質問意識ビデオ埋め込み(LGQAVE)を紹介した。
LGQAVEは、質問に関する最も関連性の高いフレームを正確に識別するクロスアテンション機構を利用することで、従来のアドホックフレームサンプリングを越えている。
追加のクロスアテンションモジュールは、これらのローカルおよびグローバルな埋め込みを統合して、最終ビデオ埋め込みを生成する。
論文 参考訳(メタデータ) (2024-12-12T12:39:07Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。