論文の概要: Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video
- arxiv url: http://arxiv.org/abs/2305.04824v1
- Date: Mon, 8 May 2023 16:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 13:41:21.552685
- Title: Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video
- Title(参考訳): ビデオにおける抽象要約のための要約と視覚表現の学習
- Authors: Zenan Xu, Xiaojun Meng, Yasheng Wang, Qinliang Su, Zexuan Qiu, Xin
Jiang, Qun Liu
- Abstract要約: 本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
- 参考スコア(独自算出の注目度): 34.202514532882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal abstractive summarization for videos (MAS) requires generating a
concise textual summary to describe the highlights of a video according to
multimodal resources, in our case, the video content and its transcript.
Inspired by the success of the large-scale generative pre-trained language
model (GPLM) in generating high-quality textual content (e.g., summary), recent
MAS methods have proposed to adapt the GPLM to this task by equipping it with
the visual information, which is often obtained through a general-purpose
visual feature extractor. However, the generally extracted visual features may
overlook some summary-worthy visual information, which impedes model
performance. In this work, we propose a novel approach to learning the
summary-worthy visual representation that facilitates abstractive
summarization. Our method exploits the summary-worthy information from both the
cross-modal transcript data and the knowledge that distills from the pseudo
summary. Extensive experiments on three public multimodal datasets show that
our method outperforms all competing baselines. Furthermore, with the
advantages of summary-worthy visual information, our model can have a
significant improvement on small datasets or even datasets with limited
training data.
- Abstract(参考訳): ビデオのマルチモーダル要約(multimodal abstractive summarization for videos,mas)は、ビデオコンテンツとその書き起こしといったマルチモーダルなリソースに従って、ビデオのハイライトを記述するための簡潔なテキスト要約を生成する必要がある。
高品質なテキストコンテンツ(要約など)の生成において,大規模な生成事前学習言語モデル(GPLM)の成功に触発されて,近年のMAS手法では,汎用的な視覚特徴抽出器によってしばしば得られる視覚情報と合わせて,GPLMをこのタスクに適応させることが提案されている。
しかし、一般的に抽出された視覚機能は、モデル性能を妨げる要約に値する視覚情報を見逃す可能性がある。
本稿では,抽象的要約を容易にする要約価値のある視覚的表現を学ぶための新しい手法を提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から要約価値のある情報を利用する。
3つの公開マルチモーダルデータセットに対する大規模な実験により、我々の手法は競合するすべてのベースラインより優れていることが示された。
さらに,サマリに価値のある視覚情報を活用することで,小規模データセットやトレーニングデータに制限のあるデータセットにおいても大きな改善が期待できる。
関連論文リスト
- Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文 参考訳(メタデータ) (2024-08-27T02:43:40Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization [63.320005222549646]
マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-12-15T09:05:26Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - StreamHover: Livestream Transcript Summarization and Annotation [54.41877742041611]
ライブストリームの書き起こしを注釈付けして要約するフレームワークであるStreamHoverを紹介します。
合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。
我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。
論文 参考訳(メタデータ) (2021-09-11T02:19:37Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。