論文の概要: Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net
- arxiv url: http://arxiv.org/abs/2106.10528v1
- Date: Sat, 19 Jun 2021 16:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:33:46.995063
- Title: Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net
- Title(参考訳): 3次元時空間u-netによる強化学習による映像要約
- Authors: Tianrui Liu, Qingjie Meng, Jun-Jie Huang, Athanasios Vlontzos, Daniel
Rueckert, Bernhard Kainz
- Abstract要約: 本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
- 参考スコア(独自算出の注目度): 15.032516344808526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent video summarization algorithms allow to quickly convey the most
relevant information in videos through the identification of the most essential
and explanatory content while removing redundant video frames. In this paper,
we introduce the 3DST-UNet-RL framework for video summarization. A 3D
spatio-temporal U-Net is used to efficiently encode spatio-temporal information
of the input videos for downstream reinforcement learning (RL). An RL agent
learns from spatio-temporal latent scores and predicts actions for keeping or
rejecting a video frame in a video summary. We investigate if real/inflated 3D
spatio-temporal CNN features are better suited to learn representations from
videos than commonly used 2D image features. Our framework can operate in both,
a fully unsupervised mode and a supervised training mode. We analyse the impact
of prescribed summary lengths and show experimental evidence for the
effectiveness of 3DST-UNet-RL on two commonly used general video summarization
benchmarks. We also applied our method on a medical video summarization task.
The proposed video summarization method has the potential to save storage costs
of ultrasound screening videos as well as to increase efficiency when browsing
patient video data during retrospective analysis or audit without loosing
essential information
- Abstract(参考訳): インテリジェントなビデオ要約アルゴリズムは、冗長なビデオフレームを除去しながら、最も重要かつ説明的なコンテンツの識別を通じて、ビデオ内の最も関連性の高い情報を素早く伝達することができる。
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
下流強化学習(rl)のための入力ビデオの時空間情報を効率良くエンコードするために3次元時空間u-netを用いる。
RLエージェントは、時空間潜時スコアから学習し、ビデオ要約におけるビデオフレームの保持又は拒否の動作を予測する。
本研究では,3次元空間的cnn特徴が,一般的な2次元画像特徴よりも映像表現の学習に適しているか検討する。
我々のフレームワークは、完全に教師なしモードと教師なしトレーニングモードの両方で操作できる。
我々は、所定の要約長の影響を分析し、3DST-UNet-RLの2つの一般的なビデオ要約ベンチマークにおける有効性を示す実験的な証拠を示す。
また,本手法を医用ビデオ要約作業に適用した。
提案手法は, 超音波検診ビデオの保存コストを削減できるとともに, 再考分析や監査中に患者の映像データを閲覧する場合に, 重要な情報を漏らさずに効率を上げる可能性がある。
関連論文リスト
- Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Video 3D Sampling for Self-supervised Representation Learning [13.135859819622855]
本稿では,ビデオ3Dサンプリング(V3S)と呼ばれる,映像表現学習の自己指導手法を提案する。
本実装では,3次元のサンプリングを組み合わせ,空間および時間におけるスケールおよび投影変換を提案する。
実験結果から,動作認識,映像検索,動作類似性ラベル付けに応用した場合,本手法は最先端の手法を改良し,良好なマージンが得られた。
論文 参考訳(メタデータ) (2021-07-08T03:22:06Z) - Temporal-Spatial Feature Pyramid for Video Saliency Detection [2.578242050187029]
ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
論文 参考訳(メタデータ) (2021-05-10T09:14:14Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Temporal Stochastic Softmax for 3D CNNs: An Application in Facial
Expression Recognition [11.517316695930596]
本稿では,3次元CNNの効率的なビデオベーストレーニング戦略を提案する。
ソフトマックスの時間プーリングと、最も関連するトレーニングクリップを選択するための重み付けサンプリング機構に依存している。
論文 参考訳(メタデータ) (2020-11-10T16:40:00Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - Exploring Relations in Untrimmed Videos for Self-Supervised Learning [17.670226952829506]
既存の自己教師付き学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
非時間ビデオ(ERUV)における探索関係(Exploring Relations in Untemporal Videos)と呼ばれる,新たな自己管理手法を提案する。
ERUVはよりリッチな表現を学習することができ、最先端の自己管理手法よりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2020-08-06T15:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。