論文の概要: Compare and Select: Video Summarization with Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2007.14552v1
- Date: Wed, 29 Jul 2020 02:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 19:52:43.436873
- Title: Compare and Select: Video Summarization with Multi-Agent Reinforcement
Learning
- Title(参考訳): 比較と選択:マルチエージェント強化学習によるビデオ要約
- Authors: Tianyu Liu
- Abstract要約: 一般ユーザーはビデオ全体を見たり、面白いクリップを比較したり、いくつかのクリップを選択して最終的な要約を作るのが普通だ。
一般ユーザ行動に触発されて、複数の逐次意思決定プロセスとして要約プロセスを定式化する。
マルチエージェント強化学習に基づく比較選択ネットワーク(CoSNet)を提案する。
- 参考スコア(独自算出の注目度): 8.750477361738469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization aims at generating concise video summaries from the
lengthy videos, to achieve better user watching experience. Due to the
subjectivity, purely supervised methods for video summarization may bring the
inherent errors from the annotations. To solve the subjectivity problem, we
study the general user summarization process. General users usually watch the
whole video, compare interesting clips and select some clips to form a final
summary. Inspired by the general user behaviours, we formulate the
summarization process as multiple sequential decision-making processes, and
propose Comparison-Selection Network (CoSNet) based on multi-agent
reinforcement learning. Each agent focuses on a video clip and constantly
changes its focus during the iterations, and the final focus clips of all
agents form the summary. The comparison network provides the agent with the
visual feature from clips and the chronological feature from the past round,
while the selection network of the agent makes decisions on the change of its
focus clip. The specially designed unsupervised reward and supervised reward
together contribute to the policy advancement, each containing local and global
parts. Extensive experiments on two benchmark datasets show that CoSNet
outperforms state-of-the-art unsupervised methods with the unsupervised reward
and surpasses most supervised methods with the complete reward.
- Abstract(参考訳): ビデオ要約は、長いビデオから簡潔なビデオ要約を生成し、より良いユーザー視聴体験を実現することを目的としている。
主観性のため、ビデオ要約のための純粋に教師付き手法はアノテーションから固有の誤りをもたらす可能性がある。
主観性問題を解決するために,一般ユーザ要約プロセスについて検討する。
一般ユーザーは、通常ビデオ全体を見て、面白いクリップを比較し、いくつかのクリップを選択して最終的な要約を作る。
一般ユーザ行動に触発されて,複数の逐次意思決定プロセスとして要約プロセスを定式化し,マルチエージェント強化学習に基づく比較選択ネットワーク(cosnet)を提案する。
各エージェントはビデオクリップに集中し、イテレーション中のフォーカスを常に変更し、すべてのエージェントの最終フォーカスクリップが要約を形成する。
比較ネットワークは、エージェントに、クリップからの視覚的特徴と過去のラウンドからの時系列的特徴を提供する一方、エージェントの選択ネットワークはそのフォーカスクリップの変更について決定を行う。
特別に設計された無監督報酬と監督報酬は、それぞれ地域とグローバルの部分を含む政策の進展に寄与する。
2つのベンチマークデータセットの大規模な実験により、CoSNetは教師なし報酬で最先端の教師なしメソッドを上回り、完全な報酬でほとんどの教師なしメソッドを上回ります。
関連論文リスト
- Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Learning to Summarize Videos by Contrasting Clips [1.3999481573773074]
ビデオ要約は、オリジナルに近いストーリーをナレーションするビデオの一部を選択することを目的としている。
既存のビデオ要約アプローチのほとんどは手作りのラベルに重点を置いている。
両質問に対する回答として,コントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-01-12T18:55:30Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - MINI-Net: Multiple Instance Ranking Network for Video Highlight
Detection [71.02649475990889]
本稿では,複数のインスタンスランキングネットワーク(MINI-Net)学習として,ある特定のイベントに対する弱教師付きビデオハイライト検出モデルを提案する。
MINI-Netは、特定のイベントのハイライトセグメントを含む正のバッグに対して、無関係な負のバッグよりも高いハイライトスコアを強制することを学ぶ。
論文 参考訳(メタデータ) (2020-07-20T01:56:32Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。