論文の概要: Interactive Control over Temporal Consistency while Stylizing Video
Streams
- arxiv url: http://arxiv.org/abs/2301.00750v2
- Date: Thu, 29 Jun 2023 21:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 15:29:50.356478
- Title: Interactive Control over Temporal Consistency while Stylizing Video
Streams
- Title(参考訳): 映像ストリームのスタイライゼーションにおける時間的一貫性のインタラクティブ制御
- Authors: Sumit Shekhar, Max Reimann, Moritz Hilscher, Amir Semmo, J\"urgen
D\"ollner, Matthias Trapp
- Abstract要約: 本稿では,ビデオストリームをフルHD解像度でリアルタイムにスタイリングし,インタラクティブな一貫性制御を実現する手法を提案する。
デスクトップシステム上で80FPSで動作するライト光フローネットワークを,十分な精度で開発する。
- 参考スコア(独自算出の注目度): 1.4680035572775534
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image stylization has seen significant advancement and widespread interest
over the years, leading to the development of a multitude of techniques.
Extending these stylization techniques, such as Neural Style Transfer (NST), to
videos is often achieved by applying them on a per-frame basis. However,
per-frame stylization usually lacks temporal consistency, expressed by
undesirable flickering artifacts. Most of the existing approaches for enforcing
temporal consistency suffer from one or more of the following drawbacks: They
(1) are only suitable for a limited range of techniques, (2) do not support
online processing as they require the complete video as input, (3) cannot
provide consistency for the task of stylization, or (4) do not provide
interactive consistency control. Domain-agnostic techniques for temporal
consistency aim to eradicate flickering completely but typically disregard
aesthetic aspects. For stylization tasks, however, consistency control is an
essential requirement as a certain amount of flickering adds to the artistic
look and feel. Moreover, making this control interactive is paramount from a
usability perspective. To achieve the above requirements, we propose an
approach that stylizes video streams in real-time at full HD resolutions while
providing interactive consistency control. We develop a lite optical-flow
network that operates at 80 FPS on desktop systems with sufficient accuracy.
Further, we employ an adaptive combination of local and global consistency
features and enable interactive selection between them. Objective and
subjective evaluations demonstrate that our method is superior to
state-of-the-art video consistency approaches.
- Abstract(参考訳): 画像のスタイリゼーションは、長年にわたって顕著な進歩と幅広い関心を集め、様々な技術の発展につながった。
ニューラルスタイル転送(NST)のようなこれらのスタイル化テクニックをビデオに拡張することは、フレーム単位で適用することでしばしば達成される。
しかしながら、フレーム単位のスタイリングは通常、望ましくないフリックングアーティファクトによって表現される時間的一貫性を欠いている。
時間的一貫性を強制する既存のアプローチは,(1)限られた範囲の手法にのみ適しており,(2)入力として完全なビデオを必要とするため,(2)オンライン処理をサポートしない,(3)タイマライゼーションのタスクに対して一貫性を提供できない,(4)インタラクティブな一貫性制御を提供しない,といった欠点に悩まされている。
時間的一貫性のためのドメインに依存しない技術は、フリックを完全に根絶することを目的としている。
しかし、スタイリゼーションタスクでは、ある種のフリックが芸術的なルックアンドフィールに付加されるため、一貫性の制御は必須の要件である。
さらに、ユーザビリティの観点から、このコントロールをインタラクティブにすることが最重要である。
そこで本稿では,ビデオストリームをフルhd解像度でリアルタイムにスタイライゼーションし,インタラクティブな一貫性制御を実現する手法を提案する。
デスクトップシステム上で80FPSで動作するライト光フローネットワークを,十分な精度で開発する。
さらに,局所的およびグローバル的一貫性を適応的に組み合わせ,それらの相互選択を可能にする。
客観的および主観的評価は,本手法が最先端のビデオ一貫性アプローチよりも優れていることを示す。
関連論文リスト
- Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。
次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。
このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文 参考訳(メタデータ) (2025-01-13T18:53:08Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [20.308013151046616]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - DreamColour: Controllable Video Colour Editing without Training [80.90808879991182]
直感的なインタフェースにより、正確な映像色編集を可能にする訓練不要のフレームワークを提案する。
色編集の空間的側面と時間的側面を分離することにより、ユーザの自然なワークフローをより良く整合させることができる。
当社のアプローチは、トレーニングや特別なハードウェアの必要性を排除しつつ、最先端の手法に適合または超越しています。
論文 参考訳(メタデータ) (2024-12-06T16:57:54Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統合フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior [13.595032265551184]
ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。
本稿では,冗長計算を選択的に削減する適応型動き誘導型クロスフレームアテンション機構を提案する。
これにより、同じ計算予算内でより多くのフレームにクロスフレームの注意を向けることができる。
論文 参考訳(メタデータ) (2024-06-07T12:12:25Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。