論文の概要: Unsupervised Video Summarization via Reinforcement Learning and a Trained Evaluator
- arxiv url: http://arxiv.org/abs/2407.04258v1
- Date: Fri, 5 Jul 2024 05:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:31:15.255877
- Title: Unsupervised Video Summarization via Reinforcement Learning and a Trained Evaluator
- Title(参考訳): 強化学習と訓練評価器による教師なし映像要約
- Authors: Mehryar Abbasi, Hadi Hadizadeh, Parvaneh Saeedi,
- Abstract要約: 本稿では,強化学習を用いた教師なし映像要約のための新しい手法を提案する。
それは、敵のジェネレータ-識別器アーキテクチャの不安定なトレーニングを含む、現在の教師なし手法の既存の制限に対処することを目的としている。
実験の結果, TVSum と SumMe のデータセットでそれぞれ62.3 と 54.5 のFスコアが得られた。
- 参考スコア(独自算出の注目度): 5.530212768657544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach for unsupervised video summarization using reinforcement learning. It aims to address the existing limitations of current unsupervised methods, including unstable training of adversarial generator-discriminator architectures and reliance on hand-crafted reward functions for quality evaluation. The proposed method is based on the concept that a concise and informative summary should result in a reconstructed video that closely resembles the original. The summarizer model assigns an importance score to each frame and generates a video summary. In the proposed scheme, reinforcement learning, coupled with a unique reward generation pipeline, is employed to train the summarizer model. The reward generation pipeline trains the summarizer to create summaries that lead to improved reconstructions. It comprises a generator model capable of reconstructing masked frames from a partially masked video, along with a reward mechanism that compares the reconstructed video from the summary against the original. The video generator is trained in a self-supervised manner to reconstruct randomly masked frames, enhancing its ability to generate accurate summaries. This training pipeline results in a summarizer model that better mimics human-generated video summaries compared to methods relying on hand-crafted rewards. The training process consists of two stable and isolated training steps, unlike adversarial architectures. Experimental results demonstrate promising performance, with F-scores of 62.3 and 54.5 on TVSum and SumMe datasets, respectively. Additionally, the inference stage is 300 times faster than our previously reported state-of-the-art method.
- Abstract(参考訳): 本稿では,強化学習を用いた教師なし映像要約のための新しい手法を提案する。
本研究の目的は、敵のジェネレータ識別アーキテクチャの不安定なトレーニングや、手作りの報酬関数による品質評価など、現在の教師なし手法の既存の制限に対処することである。
提案手法は,簡潔かつ情報的な要約により,オリジナルによく似た再構成ビデオが得られるという概念に基づいている。
要約モデルは、各フレームに重要スコアを割り当て、ビデオ要約を生成する。
提案手法では,一意の報酬生成パイプラインと組み合わさった強化学習を用いて,要約モデルの学習を行う。
報酬生成パイプラインは、要約器を訓練して、改善された再構築につながる要約を作成する。
部分的にマスキングされた映像からマスクされたフレームを再構成できるジェネレータモデルと、その要約から再構成された映像を原文と比較する報酬機構とを備える。
ビデオジェネレータは、ランダムにマスキングされたフレームを再構成する自己教師型の方法で訓練され、正確な要約を生成する能力を高める。
このトレーニングパイプラインは、手作りの報酬に依存する方法と比較して、人間の生成したビデオ要約をよりよく模倣する要約モデルをもたらす。
トレーニングプロセスは、敵のアーキテクチャとは異なり、2つの安定かつ孤立したトレーニングステップで構成される。
実験の結果, TVSum と SumMe のデータセットでそれぞれ62.3 と 54.5 のFスコアが得られた。
さらに、予測段階は、以前報告した最先端手法の300倍高速である。
関連論文リスト
- Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Unsupervised Video Summarization [13.84781990050851]
本稿では, 生成的対角ネットワークのアイデアを用いた, 教師なしの映像要約手法を提案する。
また、複数回の繰り返しに対して、再構成器とフレームセレクタを交互に訓練することにより、反復的トレーニング戦略を適用する。
論文 参考訳(メタデータ) (2023-11-07T06:01:56Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。