論文の概要: Seeing Fast and Slow: Learning the Flow of Time in Videos
- arxiv url: http://arxiv.org/abs/2604.21931v1
- Date: Thu, 23 Apr 2026 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.832404
- Title: Seeing Fast and Slow: Learning the Flow of Time in Videos
- Title(参考訳): 速く、ゆっくり見る:ビデオの時間の流れを学ぶ
- Authors: Yen-Siang Wu, Rundong Luo, Jingsen Zhu, Tao Tu, Ali Farhadi, Matthew Wallingford, Yu-Chiang Frank Wang, Steve Marschner, Wei-Chiu Ma,
- Abstract要約: 学習可能な視覚概念として時間を研究し、ビデオ中の時間の流れを推論し、操作するためのモデルを開発する。
これまでで最大のスローモーションビデオデータセットを、ノイズの多いインザワイルドソースからキュレートした。
これらの学習された時間的推論モデルにより、これまでで最大のスローモーションビデオデータセットを、帯域内のノイズの多いソースからキュレートすることができる。
- 参考スコア(独自算出の注目度): 58.71893154112877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.
- Abstract(参考訳): 動画がアップされたのか、スローダウンされたのか、どうやってわかるのか?
異なる速度でビデオを生成するにはどうすればいいのか?
ビデオは現代のコンピュータビジョン研究の中心であったが、時間経過の知覚と制御にはほとんど注意が払われていない。
本稿では,学習可能な視覚概念としての時間について検討し,ビデオ中の時間の流れを推論し,操作するためのモデルを開発する。
まず、ビデオに自然に存在するマルチモーダルなキューと時間構造を利用して、自制的な学習を行い、速度変化を検出し、再生速度を推定する。
そして、これらの学習された時間的推論モデルによって、これまでで最大のスローモーションビデオデータセットを、ノイズの多いインザワイルドソースからキュレートできることを示します。
このようなスローモーション映像は、通常高速カメラで撮影されるが、通常のビデオよりも時間的細部がかなり豊富である。
このデータを用いて、所定の再生速度で動画を生成する速度条件付きビデオ生成や、低FPS、ぼやけた動画を微細な時間的詳細で高FPSシーケンスに変換する時間的超解像など、時間的制御が可能なモデルをさらに発展させる。
ビデオ学習における操作可能な知覚次元としての時間,時間的制御可能なビデオ生成への扉の開き,時間的法医学的検出,そしてイベントが時間とともにどのように広がるかを理解するための潜在的に豊かな世界モデルとして,本研究で明らかになった。
関連論文リスト
- SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation [153.46240555355408]
SlowFast-VGenはアクション駆動長ビデオ生成のための新しいデュアルスピード学習システムである。
本稿では,世界ダイナミクスのスローラーニングのための条件付きビデオ拡散モデルを提案する。
本研究では,内在学習ループを外在学習ループにシームレスに統合する低速学習ループアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:55:52Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - SpeedNet: Learning the Speediness in Videos [54.798526633714474]
SpeedNetは、ビデオが正常に再生されているか、あるいは再生されているかを検出するために訓練された、新しいディープネットワークである。
本稿では,この単一バイナリ分類ネットワークを用いて物体の速度を任意に検出する方法を示す。
論文 参考訳(メタデータ) (2020-04-13T18:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。