論文の概要: GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization
- arxiv url: http://arxiv.org/abs/2104.12465v1
- Date: Mon, 26 Apr 2021 10:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 22:50:00.515469
- Title: GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization
- Title(参考訳): GPT2MVS:マルチモーダルビデオ要約のための生成事前学習トランス-2
- Authors: Jia-Hong Huang, Luka Murn, Marta Mrak, Marcel Worring
- Abstract要約: 提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
- 参考スコア(独自算出の注目度): 18.543372365239673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional video summarization methods generate fixed video representations
regardless of user interest. Therefore such methods limit users' expectations
in content search and exploration scenarios. Multi-modal video summarization is
one of the methods utilized to address this problem. When multi-modal video
summarization is used to help video exploration, a text-based query is
considered as one of the main drivers of video summary generation, as it is
user-defined. Thus, encoding the text-based query and the video effectively are
both important for the task of multi-modal video summarization. In this work, a
new method is proposed that uses a specialized attention network and
contextualized word representations to tackle this task. The proposed model
consists of a contextualized video summary controller, multi-modal attention
mechanisms, an interactive attention network, and a video summary generator.
Based on the evaluation of the existing multi-modal video summarization
benchmark, experimental results show that the proposed model is effective with
the increase of +5.88% in accuracy and +4.06% increase of F1-score, compared
with the state-of-the-art method.
- Abstract(参考訳): 従来のビデオ要約手法は、ユーザーの興味に関係なく固定されたビデオ表現を生成する。
そのため、コンテンツ検索や探索のシナリオにおけるユーザの期待を制限している。
マルチモーダル映像要約はこの問題に対処するために用いられる手法の1つである。
ビデオ探索にマルチモーダルビデオ要約を用いる場合,テキストベースの問合せは,ユーザが定義するビデオ要約生成の主要な要因の1つであると考えられる。
したがって、テキストベースの問合せと映像を効果的にエンコーディングすることは、マルチモーダルビデオ要約のタスクにおいて重要である。
本稿では,この課題に取り組むために,特別な注意ネットワークと文脈表現を用いた新しい手法を提案する。
提案モデルは,コンテキスト化された映像要約コントローラ,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
既存のマルチモーダルビデオ要約ベンチマークの評価結果から,提案手法は精度が5.88%,f1-scoreが4.06%向上した。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。
既存のデータセットのほとんどは、ビデオ間要約用に作成されている。
マルチモーダル映像要約への取り組みが近年行われている。
論文 参考訳(メタデータ) (2024-04-18T17:32:46Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Joint Multimedia Event Extraction from Video and Article [51.159034070824056]
本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。
まず,自己教師型マルチモーダルイベントコアモデルを提案する。
第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
論文 参考訳(メタデータ) (2021-09-27T03:22:12Z) - Query-controllable Video Summarization [16.54586273670312]
本稿では,テキストベースの問合せを入力とし,それに対応する映像要約を生成する手法を提案する。
提案手法は,映像要約制御器,映像要約生成器,映像要約出力モジュールから構成される。
論文 参考訳(メタデータ) (2020-04-07T19:35:04Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。