論文の概要: VideoChain: A Transformer-Based Framework for Multi-hop Video Question Generation
- arxiv url: http://arxiv.org/abs/2511.08348v1
- Date: Wed, 12 Nov 2025 01:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.772723
- Title: VideoChain: A Transformer-Based Framework for Multi-hop Video Question Generation
- Title(参考訳): VideoChain: マルチホップビデオ質問生成のためのトランスフォーマーベースのフレームワーク
- Authors: Arpan Phukan, Anupam Pandey, Deepjyoti Bodo, Asif Ekbal,
- Abstract要約: 本稿では,新しいマルチホップビデオ質問生成フレームワークであるVideoChainを紹介する。
VideoChainは、複数の時間的に分離されたビデオセグメントにわたる推論を必要とする質問を生成する。
評価は、標準生成メトリクス間でのVideoChainの強いパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 26.84730661504223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-hop Question Generation (QG) effectively evaluates reasoning but remains confined to text; Video Question Generation (VideoQG) is limited to zero-hop questions over single segments. To address this, we introduce VideoChain, a novel Multi-hop Video Question Generation (MVQG) framework designed to generate questions that require reasoning across multiple, temporally separated video segments. VideoChain features a modular architecture built on a modified BART backbone enhanced with video embeddings, capturing textual and visual dependencies. Using the TVQA+ dataset, we automatically construct the large-scale MVQ-60 dataset by merging zero-hop QA pairs, ensuring scalability and diversity. Evaluations show VideoChain's strong performance across standard generation metrics: ROUGE-L (0.6454), ROUGE-1 (0.6854), BLEU-1 (0.6711), BERTScore-F1 (0.7967), and semantic similarity (0.8110). These results highlight the model's ability to generate coherent, contextually grounded, and reasoning-intensive questions.
- Abstract(参考訳): マルチホップ質問生成 (Multi-hop Question Generation, QG) は、推論を効果的に評価するが、テキストに限られており、ビデオ質問生成 (Video QG) は、単一のセグメントに対してゼロホップ質問に限られる。
これを解決するために,複数の時間的に分離されたビデオセグメントにまたがる推論を必要とする質問を生成するための,MVQG(Multi-hop Video Question Generation)フレームワークであるVideoChainを紹介する。
VideoChainは、ビデオ埋め込み、テキストおよび視覚的依存関係のキャプチャにより強化された、修正されたBARTバックボーン上に構築されたモジュラーアーキテクチャを備えている。
TVQA+データセットを用いて、ゼロホップQAペアをマージし、スケーラビリティと多様性を確保することで、大規模MVQ-60データセットを自動構築する。
ROUGE-L (0.6454)、ROUGE-1 (0.6854)、BLEU-1 (0.6711)、BERTScore-F1 (0.7967)、意味的類似性 (110110) である。
これらの結果は、一貫性があり、文脈に根ざした、推論集約的な質問を生成するモデルの能力を強調している。
関連論文リスト
- CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - VideoMultiAgents: A Multi-Agent Framework for Video Question Answering [11.514596823413736]
Video Question Answering (VQA) は本質的にマルチモーダル推論に依存している。
本稿では,視覚,シーングラフ解析,テキスト処理などの特殊エージェントを統合するフレームワークであるVideoMultiAgentsを紹介する。
提案手法は, 対象, 行動, 時間的遷移をハイライトするキャプションを生成する, 質問誘導キャプション生成を補足する。
論文 参考訳(メタデータ) (2025-04-25T22:08:09Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos [35.974750867072345]
本稿では,長めの自己中心型ビデオにおけるMH-VidQA(Multi-Hop Video Question Answering)の問題について考察する。
時間的エビデンスを伴う複数ホップ質問応答ペアを生成するための自動パイプラインを開発する。
次に,大規模言語モデル (GeLM) を用いたグラウンディング散乱証拠 (Gunding Scattered Evidence with Large Language Model) と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-26T17:58:47Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。