論文の概要: Video-ReTime: Learning Temporally Varying Speediness for Time Remapping
- arxiv url: http://arxiv.org/abs/2205.05609v1
- Date: Wed, 11 May 2022 16:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 19:32:58.630739
- Title: Video-ReTime: Learning Temporally Varying Speediness for Time Remapping
- Title(参考訳): Video-ReTime: タイムリマッピングの速さを学習する
- Authors: Simon Jenni, Markus Woodson, Fabian Caba Heilbron
- Abstract要約: 我々は、自己スーパービジョンを介してニューラルネットワークをトレーニングし、ビデオ再生速度の変化を認識し、正確にローカライズする。
本モデルは,従来の手法よりも高精度で,再生速度の変動を正確に検出できることを実証する。
- 参考スコア(独自算出の注目度): 12.139222986297263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for generating a temporally remapped video that matches
the desired target duration while maximally preserving natural video dynamics.
Our approach trains a neural network through self-supervision to recognize and
accurately localize temporally varying changes in the video playback speed. To
re-time videos, we 1. use the model to infer the slowness of individual video
frames, and 2. optimize the temporal frame sub-sampling to be consistent with
the model's slowness predictions. We demonstrate that this model can detect
playback speed variations more accurately while also being orders of magnitude
more efficient than prior approaches. Furthermore, we propose an optimization
for video re-timing that enables precise control over the target duration and
performs more robustly on longer videos than prior methods. We evaluate the
model quantitatively on artificially speed-up videos, through transfer to
action recognition, and qualitatively through user studies.
- Abstract(参考訳): 本稿では,所望の目標時間に合わせて時間的に再マップされたビデオを生成する方法を提案する。
本手法は,ビデオ再生速度の時間変化を認識・正確に局所化するために,自己スーパービジョンを通してニューラルネットワークを訓練する。
動画を再生するために
1.個々のビデオフレームの遅さを推測するためにモデルを使用する。
2. 時間フレームのサブサンプリングを最適化し、モデルのスローネス予測と整合する。
本モデルは,従来の手法よりも高精度で,再生速度の変動を正確に検出できることを実証する。
さらに,対象時間を正確に制御し,より長い動画に対してよりロバストに実行できるようにするビデオ再見積の最適化を提案する。
本研究では,動画の速度向上,行動認識への伝達,ユーザ研究による質的評価を行った。
関連論文リスト
- Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search [23.3627657867351]
アライメント問題に大きな注目を集めており、コンテンツの良さに基づいて拡散モデルの出力を操縦する。
本稿では,アライメント報酬を最大化するために,より優れた拡散潜時を選択できるルックアヘッド推定器を用いた拡散潜時ビーム探索を提案する。
本手法は,モデルパラメータを更新することなく,キャリブレーションされた報酬に基づいて知覚品質を向上させることを実証する。
論文 参考訳(メタデータ) (2025-01-31T16:09:30Z) - Temporal Preference Optimization for Long-Form Video Understanding [28.623353303256653]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - VEnhancer: Generative Space-Time Enhancement for Video Generation [123.37212575364327]
VEnhancerは、空間領域に詳細を追加し、時間領域に詳細を合成することにより、既存のテキスト・ビデオの結果を改善する。
我々は、低フレームレートおよび低解像度ビデオの条件として、ビデオ制御ネットをトレーニングし、拡散モデルに注入する。
VEnhancerは、AI生成ビデオの強化において、既存の最先端のビデオ超解像と時空超解像を超越している。
論文 参考訳(メタデータ) (2024-07-10T13:46:08Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - View while Moving: Efficient Video Recognition in Long-untrimmed Videos [17.560160747282147]
本稿では,映像認識の効率化を目的とした新しい認識パラダイム"View while moving"を提案する。
2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。
提案手法は精度と効率の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-09T09:46:26Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - Self-Supervised Visual Learning by Variable Playback Speeds Prediction
of a Video [23.478555947694108]
ビデオの再生速度の変動を予測し,自己教師付き視覚学習手法を提案する。
再生速度に応じて映像の外観の変動を利用して映像のメタ時間的視覚変化を学習する。
また,3次元畳み込みネットワークに適用可能な時間群正規化手法を提案する。
論文 参考訳(メタデータ) (2020-03-05T15:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。