論文の概要: DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization
- arxiv url: http://arxiv.org/abs/2105.06441v1
- Date: Thu, 13 May 2021 17:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:05:03.461931
- Title: DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization
- Title(参考訳): DeepQAMVS:マルチビデオ要約のためのクエリ対応階層型ポインタネットワーク
- Authors: Safa Messaoud, Ismini Lourentzou, Assma Boughoula, Mona Zehni, Zhizhen
Zhao, Chengxiang Zhai, Alexander G. Schwing
- Abstract要約: DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
- 参考スコア(独自算出の注目度): 127.16984421969529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent growth of web video sharing platforms has increased the demand for
systems that can efficiently browse, retrieve and summarize video content.
Query-aware multi-video summarization is a promising technique that caters to
this demand. In this work, we introduce a novel Query-Aware Hierarchical
Pointer Network for Multi-Video Summarization, termed DeepQAMVS, that jointly
optimizes multiple criteria: (1) conciseness, (2) representativeness of
important query-relevant events and (3) chronological soundness. We design a
hierarchical attention model that factorizes over three distributions, each
collecting evidence from a different modality, followed by a pointer network
that selects frames to include in the summary. DeepQAMVS is trained with
reinforcement learning, incorporating rewards that capture representativeness,
diversity, query-adaptability and temporal coherence. We achieve
state-of-the-art results on the MVS1K dataset, with inference time scaling
linearly with the number of input video frames.
- Abstract(参考訳): 近年のWebビデオ共有プラットフォームの成長により、ビデオコンテンツを効率的に閲覧、検索、要約できるシステムへの需要が高まっている。
クエリ対応のマルチビデオ要約はこの需要に対応する有望なテクニックである。
本稿では,(1)簡潔さ,(2)重要なクエリ関連事象の表現性,(3)時系列音性といった複数の基準を協調的に最適化する,マルチビデオ要約のためのクエリ対応階層型ポインタネットワークについて紹介する。
3つの分布を分解し,それぞれ異なるモダリティから証拠を収集する階層的注意モデルと,要約に含まれるフレームを選択するポインターネットワークを設計した。
DeepQAMVSは強化学習でトレーニングされており、代表性、多様性、クエリ適応性、時間的コヒーレンスをキャプチャする報酬を取り入れている。
MVS1Kデータセット上で、入力されたビデオフレーム数と線形にスケーリングする推論時間を用いて、最先端の結果を得る。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Multilevel Hierarchical Network with Multiscale Sampling for Video
Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。
MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。
マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。
PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文 参考訳(メタデータ) (2022-05-09T06:28:56Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。