論文の概要: Causal Video Summarizer for Video Exploration
- arxiv url: http://arxiv.org/abs/2307.01947v1
- Date: Tue, 4 Jul 2023 22:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:42:42.808512
- Title: Causal Video Summarizer for Video Exploration
- Title(参考訳): ビデオ探索のための因果ビデオ要約器
- Authors: Jia-Hong Huang, Chao-Han Huck Yang, Pin-Yu Chen, Andrew Brown, Marcel
Worring
- Abstract要約: Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 74.27487067877047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, video summarization has been proposed as a method to help video
exploration. However, traditional video summarization models only generate a
fixed video summary which is usually independent of user-specific needs and
hence limits the effectiveness of video exploration. Multi-modal video
summarization is one of the approaches utilized to address this issue.
Multi-modal video summarization has a video input and a text-based query input.
Hence, effective modeling of the interaction between a video input and
text-based query is essential to multi-modal video summarization. In this work,
a new causality-based method named Causal Video Summarizer (CVS) is proposed to
effectively capture the interactive information between the video and query to
tackle the task of multi-modal video summarization. The proposed method
consists of a probabilistic encoder and a probabilistic decoder. Based on the
evaluation of the existing multi-modal video summarization dataset,
experimental results show that the proposed approach is effective with the
increase of +5.4% in accuracy and +4.92% increase of F 1- score, compared with
the state-of-the-art method.
- Abstract(参考訳): 近年,ビデオ探索を支援する方法としてビデオ要約が提案されている。
しかし、従来のビデオ要約モデルは、ユーザー固有のニーズとは無関係に固定されたビデオ要約のみを生成し、それゆえビデオ探索の有効性を制限している。
マルチモーダルビデオ要約はこの問題に対処するために使用されるアプローチの1つである。
マルチモーダルビデオ要約は、ビデオ入力とテキストベースのクエリ入力を有する。
したがって,マルチモーダルビデオ要約には,映像入力とテキスト検索の相互作用を効果的にモデル化することが不可欠である。
本研究では,CVS(Causal Video Summarizer)と呼ばれる因果関係に基づく新しい手法を提案し,マルチモーダルビデオ要約の課題に対処するために,映像とクエリ間の対話的情報を効果的にキャプチャする。
提案手法は確率エンコーダと確率デコーダからなる。
既存のマルチモーダル映像要約データセットの評価結果から,提案手法の精度が+5.4%,F1スコアが+4.92%向上すると,最先端の手法と比較して有効であることが示された。
関連論文リスト
- Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Modality-Balanced Embedding for Video Retrieval [21.81705847039759]
我々はビデオエンコーダがほぼ完全にテキストマッチングに依存しているモダリティバイアス現象を同定する。
MBVR(Modality Balanced Video Retrievalの略)とMBVR(Modality Balanced Video Retrievalの略)の2つの主要コンポーネントを提案する。
本手法は,モダリティバイアス問題の解法において有効かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-04-18T06:29:46Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization [18.543372365239673]
提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
論文 参考訳(メタデータ) (2021-04-26T10:50:37Z) - Query-controllable Video Summarization [16.54586273670312]
本稿では,テキストベースの問合せを入力とし,それに対応する映像要約を生成する手法を提案する。
提案手法は,映像要約制御器,映像要約生成器,映像要約出力モジュールから構成される。
論文 参考訳(メタデータ) (2020-04-07T19:35:04Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。