論文の概要: Video Exploration via Video-Specific Autoencoders
- arxiv url: http://arxiv.org/abs/2103.17261v1
- Date: Wed, 31 Mar 2021 17:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 16:11:24.262410
- Title: Video Exploration via Video-Specific Autoencoders
- Title(参考訳): ビデオ専用オートエンコーダによるビデオ探索
- Authors: Kevin Wang and Deva Ramanan and Aayush Bansal
- Abstract要約: ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
- 参考スコア(独自算出の注目度): 60.256055890647595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present simple video-specific autoencoders that enables human-controllable
video exploration. This includes a wide variety of analytic tasks such as (but
not limited to) spatial and temporal super-resolution, spatial and temporal
editing, object removal, video textures, average video exploration, and
correspondence estimation within and across videos. Prior work has
independently looked at each of these problems and proposed different
formulations. In this work, we observe that a simple autoencoder trained (from
scratch) on multiple frames of a specific video enables one to perform a large
variety of video processing and editing tasks. Our tasks are enabled by two key
observations: (1) latent codes learned by the autoencoder capture spatial and
temporal properties of that video and (2) autoencoders can project
out-of-sample inputs onto the video-specific manifold. For e.g. (1)
interpolating latent codes enables temporal super-resolution and
user-controllable video textures; (2) manifold reprojection enables spatial
super-resolution, object removal, and denoising without training for any of the
tasks. Importantly, a two-dimensional visualization of latent codes via
principal component analysis acts as a tool for users to both visualize and
intuitively control video edits. Finally, we quantitatively contrast our
approach with the prior art and found that without any supervision and
task-specific knowledge, our approach can perform comparably to supervised
approaches specifically trained for a task.
- Abstract(参考訳): 本稿では,人間制御可能なビデオ探索が可能な簡易なビデオ専用オートエンコーダを提案する。
これには、空間的および時間的超解像、空間的および時間的編集、オブジェクトの除去、ビデオテクスチャ、平均的なビデオ探索、ビデオ内およびビデオ間の対応推定など、多種多様な分析タスクが含まれる。
先行研究はこれらの問題をそれぞれ独立に検討し、異なる定式化を提案した。
本研究では,特定のビデオの複数のフレーム上で(スクラッチから)訓練された単純なオートエンコーダにより,多様なビデオ処理や編集作業を行うことができることを示す。
1) オートエンコーダが学習した潜時符号はその映像の空間的および時間的特性をキャプチャし、(2) オートエンコーダはビデオ固有の多様体にアウトオブサンプル入力を投影することができる。
例えば、
1) 潜伏符号の補間は時間的超解像およびユーザ制御可能な映像テクスチャを可能にし, (2) 空間的超解像, 物体除去, デノベーションをタスクの訓練なしに実現している。
重要なことに、プリンシパルコンポーネント分析による潜在コードの二次元可視化は、ユーザーがビデオ編集を視覚化し、直感的に制御するためのツールとして機能する。
最後に,我々のアプローチと先行技術とを定量的に比較し,監督やタスク固有の知識がなければ,タスクに特化して訓練された教師付きアプローチと相容れないことが判明した。
関連論文リスト
- OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - Streaming Video Model [90.24390609039335]
本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
論文 参考訳(メタデータ) (2023-03-30T08:51:49Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Human-Machine Collaborative Video Coding Through Cuboidal Partitioning [26.70051123157869]
本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。
ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。
ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
論文 参考訳(メタデータ) (2021-02-02T04:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。