論文の概要: Video-ReTime: Learning Temporally Varying Speediness for Time Remapping
- arxiv url: http://arxiv.org/abs/2205.05609v1
- Date: Wed, 11 May 2022 16:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 19:32:58.630739
- Title: Video-ReTime: Learning Temporally Varying Speediness for Time Remapping
- Title(参考訳): Video-ReTime: タイムリマッピングの速さを学習する
- Authors: Simon Jenni, Markus Woodson, Fabian Caba Heilbron
- Abstract要約: 我々は、自己スーパービジョンを介してニューラルネットワークをトレーニングし、ビデオ再生速度の変化を認識し、正確にローカライズする。
本モデルは,従来の手法よりも高精度で,再生速度の変動を正確に検出できることを実証する。
- 参考スコア(独自算出の注目度): 12.139222986297263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for generating a temporally remapped video that matches
the desired target duration while maximally preserving natural video dynamics.
Our approach trains a neural network through self-supervision to recognize and
accurately localize temporally varying changes in the video playback speed. To
re-time videos, we 1. use the model to infer the slowness of individual video
frames, and 2. optimize the temporal frame sub-sampling to be consistent with
the model's slowness predictions. We demonstrate that this model can detect
playback speed variations more accurately while also being orders of magnitude
more efficient than prior approaches. Furthermore, we propose an optimization
for video re-timing that enables precise control over the target duration and
performs more robustly on longer videos than prior methods. We evaluate the
model quantitatively on artificially speed-up videos, through transfer to
action recognition, and qualitatively through user studies.
- Abstract(参考訳): 本稿では,所望の目標時間に合わせて時間的に再マップされたビデオを生成する方法を提案する。
本手法は,ビデオ再生速度の時間変化を認識・正確に局所化するために,自己スーパービジョンを通してニューラルネットワークを訓練する。
動画を再生するために
1.個々のビデオフレームの遅さを推測するためにモデルを使用する。
2. 時間フレームのサブサンプリングを最適化し、モデルのスローネス予測と整合する。
本モデルは,従来の手法よりも高精度で,再生速度の変動を正確に検出できることを実証する。
さらに,対象時間を正確に制御し,より長い動画に対してよりロバストに実行できるようにするビデオ再見積の最適化を提案する。
本研究では,動画の速度向上,行動認識への伝達,ユーザ研究による質的評価を行った。
関連論文リスト
- VEnhancer: Generative Space-Time Enhancement for Video Generation [123.37212575364327]
VEnhancerは、空間領域に詳細を追加し、時間領域に詳細を合成することにより、既存のテキスト・ビデオの結果を改善する。
我々は、低フレームレートおよび低解像度ビデオの条件として、ビデオ制御ネットをトレーニングし、拡散モデルに注入する。
VEnhancerは、AI生成ビデオの強化において、既存の最先端のビデオ超解像と時空超解像を超越している。
論文 参考訳(メタデータ) (2024-07-10T13:46:08Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video
Editing [10.011515580084243]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - Video BagNet: short temporal receptive fields increase robustness in
long-term action recognition [11.452704540879513]
大きな時間的受容場により、モデルはビデオの正確なサブアクション順序を符号化することができる。
我々は,時間的受容場を縮小することにより,モデルロバスト性をサブアクション順に改善できるかどうかを検討する。
短い受容場はサブアクションの順序変化に対して頑健であり、大きい時間受容場はサブアクションの順序に敏感である。
論文 参考訳(メタデータ) (2023-08-22T07:44:59Z) - View while Moving: Efficient Video Recognition in Long-untrimmed Videos [17.560160747282147]
本稿では,映像認識の効率化を目的とした新しい認識パラダイム"View while moving"を提案する。
2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。
提案手法は精度と効率の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-09T09:46:26Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - Self-Supervised Visual Learning by Variable Playback Speeds Prediction
of a Video [23.478555947694108]
ビデオの再生速度の変動を予測し,自己教師付き視覚学習手法を提案する。
再生速度に応じて映像の外観の変動を利用して映像のメタ時間的視覚変化を学習する。
また,3次元畳み込みネットワークに適用可能な時間群正規化手法を提案する。
論文 参考訳(メタデータ) (2020-03-05T15:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。