論文の概要: ECIS-VQG: Generation of Entity-centric Information-seeking Questions from Videos
- arxiv url: http://arxiv.org/abs/2410.09776v1
- Date: Sun, 13 Oct 2024 08:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:52:52.374848
- Title: ECIS-VQG: Generation of Entity-centric Information-seeking Questions from Videos
- Title(参考訳): ECIS-VQG:ビデオからエンティティ中心の情報検索質問の生成
- Authors: Arpan Phukan, Manish Gupta, Asif Ekbal,
- Abstract要約: 我々は、ビデオからエンティティ中心の情報検索の質問を生成することに重点を置いている。
我々の研究は、質問に値する情報を識別し、エンティティにリンクし、マルチモーダル信号を有効に活用する、という3つの重要な課題に対処する。
われわれは、YouTubeビデオの多様なデータセットであるVideoQuestionsに、2265の注釈付き質問を含む411の動画を投稿している。
- 参考スコア(独自算出の注目度): 26.680625096409678
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Previous studies on question generation from videos have mostly focused on generating questions about common objects and attributes and hence are not entity-centric. In this work, we focus on the generation of entity-centric information-seeking questions from videos. Such a system could be useful for video-based learning, recommending ``People Also Ask'' questions, video-based chatbots, and fact-checking. Our work addresses three key challenges: identifying question-worthy information, linking it to entities, and effectively utilizing multimodal signals. Further, to the best of our knowledge, there does not exist a large-scale dataset for this task. Most video question generation datasets are on TV shows, movies, or human activities or lack entity-centric information-seeking questions. Hence, we contribute a diverse dataset of YouTube videos, VideoQuestions, consisting of 411 videos with 2265 manually annotated questions. We further propose a model architecture combining Transformers, rich context signals (titles, transcripts, captions, embeddings), and a combination of cross-entropy and contrastive loss function to encourage entity-centric question generation. Our best method yields BLEU, ROUGE, CIDEr, and METEOR scores of 71.3, 78.6, 7.31, and 81.9, respectively, demonstrating practical usability. We make the code and dataset publicly available. https://github.com/thePhukan/ECIS-VQG
- Abstract(参考訳): ビデオからの質問生成に関するこれまでの研究は、主に共通の対象や属性に関する質問を生成することに焦点を当てており、従ってエンティティ中心ではない。
本研究では,ビデオからエンティティ中心の情報検索質問の生成に焦点をあてる。
このようなシステムはビデオベースの学習に役立ち、 ``People Also Ask''の質問、ビデオベースのチャットボット、ファクトチェックを推奨する。
我々の研究は、質問に値する情報を識別し、エンティティにリンクし、マルチモーダル信号を有効に活用する、という3つの重要な課題に対処する。
さらに、私たちの知る限りでは、このタスクのための大規模なデータセットは存在しません。
ほとんどのビデオ質問生成データセットは、テレビ番組、映画、人間活動、あるいはエンティティ中心の情報検索の質問が欠落している。
これにより、YouTubeビデオの多様なデータセットであるVideoQuestionsを、411の動画と2265の質問を手動でアノテートする。
さらに、トランスフォーマー、リッチコンテキスト信号(字幕、転写文、キャプション、埋め込み)、およびクロスエントロピーとコントラスト損失関数を組み合わせたモデルアーキテクチャを提案し、エンティティ中心の質問生成を促進する。
本手法では, BLEU, ROUGE, CIDEr, METEORスコアが71.3, 78.6, 7.31, 81.9であり, 実用性を示す。
コードとデータセットを公開しています。
https://github.com/thePhukan/ECIS-VQG
関連論文リスト
- CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。