Fugu-MT 論文翻訳(概要): Interactive Control over Temporal-consistency while Stylizing Video Streams

論文の概要: Interactive Control over Temporal-consistency while Stylizing Video Streams

arxiv url: http://arxiv.org/abs/2301.00750v1
Date: Mon, 2 Jan 2023 16:49:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 15:56:06.617188
Title: Interactive Control over Temporal-consistency while Stylizing Video Streams
Title（参考訳）: 映像ストリームのスタイライゼーションにおける時間的一貫性のインタラクティブ制御
Authors: Sumit Shekhar, Max Reimann, Moritz Hilscher, Amir Semmo, J\"urgen D\"ollner, Matthias Trapp
Abstract要約: スタイリゼーションテクニックをビデオに拡張する便利な方法は、フレーム単位で適用することである。時間的一貫性を強制するための既存のアプローチの多くは、以下の欠点の1つ以上に悩まされている。本稿では、インタラクティブな一貫性制御を提供しながら、ビデオストリームをスタイリングできるアプローチを提案する。
参考スコア（独自算出の注目度）: 1.4680035572775534
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the advent of Neural Style Transfer (NST), stylizing an image has become quite popular. A convenient way for extending stylization techniques to videos is by applying them on a per-frame basis. However, such per-frame application usually lacks temporal-consistency expressed by undesirable flickering artifacts. Most of the existing approaches for enforcing temporal-consistency suffers from one or more of the following drawbacks. They (1) are only suitable for a limited range of stylization techniques, (2) can only be applied in an offline fashion requiring the complete video as input, (3) cannot provide consistency for the task of stylization, or (4) do not provide interactive consistency-control. Note that existing consistent video-filtering approaches aim to completely remove flickering artifacts and thus do not respect any specific consistency-control aspect. For stylization tasks, however, consistency-control is an essential requirement where a certain amount of flickering can add to the artistic look and feel. Moreover, making this control interactive is paramount from a usability perspective. To achieve the above requirements, we propose an approach that can stylize video streams while providing interactive consistency-control. Apart from stylization, our approach also supports various other image processing filters. For achieving interactive performance, we develop a lite optical-flow network that operates at 80 Frames per second (FPS) on desktop systems with sufficient accuracy. We show that the final consistent video-output using our flow network is comparable to that being obtained using state-of-the-art optical-flow network. Further, we employ an adaptive combination of local and global consistent features and enable interactive selection between the two. By objective and subjective evaluation, we show that our method is superior to state-of-the-art approaches.
Abstract（参考訳）: ニューラルスタイルトランスファー(NST)の出現により、画像のスタイリングは非常に人気がある。スタイリゼーションテクニックをビデオに拡張する便利な方法は、フレーム単位で適用することである。しかし、フレームごとのアプリケーションは通常、望ましくないflickeringアーティファクトによって表現される時間的一貫性を欠いている。時間的一貫性を強制するための既存のアプローチのほとんどは、以下の1つ以上の欠点に苦しむ。 1) タイマライズ手法の限られた範囲にのみ適合し,(2) は入力として完全なビデオを必要とするオフライン方式でのみ適用可能であり,(3) はタイマライズ作業に一貫性を持たず,(4) は対話的一貫性制御を提供しない。既存の一貫したビデオフィルタリングアプローチは、フリッカリングアーティファクトを完全に取り除き、特定の一貫性制御の側面を尊重しない。しかし、スタイリゼーションタスクでは、一貫性制御は芸術的なルックアンドフィールに一定の量のフリックを付加するために必要な要件である。さらに、ユーザビリティの観点から、このコントロールをインタラクティブにすることが最重要である。以上の要件を満たすために,インタラクティブな一貫性制御を提供しながら映像ストリームをスタイリングできる手法を提案する。スタイル化以外にも,他の様々な画像処理フィルタもサポートしています。インタラクティブな性能を実現するため,デスクトップシステム上で80 Frames per second (FPS) で動作するライトオプティカルフローネットワークを開発した。その結果,我々のフローネットワークを用いた映像出力は最先端のオプティカルフローネットワークで得られるものと同等であることが判明した。さらに,局所的特徴と大域的特徴を適応的に組み合わせることで,両者の対話的選択を可能にする。客観的および主観的評価により,本手法は最先端手法よりも優れていることを示す。

関連論文リスト

JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、外観とモーションコンポーネントのジョイント最適化を可能にするフレームワークである。 AiT Lossは外見に関連するコンポーネントの流れを乱し、モデルがモーション学習のみに集中するように誘導する。 JointTunerは、UNetベースのモデルとDiffusion Transformerベースのモデルの両方と互換性がある。
論文参考訳（メタデータ） (2025-03-31T11:04:07Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。 2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。 STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-20T09:16:20Z)
Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文参考訳（メタデータ） (2025-01-27T10:57:24Z)
Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文参考訳（メタデータ） (2025-01-13T18:53:08Z)
Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [26.706957163997043]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。 MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文参考訳（メタデータ） (2025-01-08T16:41:31Z)
UniVST: A Unified Framework for Training-free Localized Video Style Transfer [66.69471376934034]
ローカライズドビデオスタイル転送のための統一フレームワークUniVSTを提案する。トレーニングは不要で、ビデオ全体にわたってスタイルを転送する既存の方法に対して、明確なアドバンテージを提供する。
論文参考訳（メタデータ） (2024-10-26T05:28:02Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior [13.595032265551184]
ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。本稿では,冗長計算を選択的に削減する適応型動き誘導型クロスフレームアテンション機構を提案する。これにより、同じ計算予算内でより多くのフレームにクロスフレームの注意を向けることができる。
論文参考訳（メタデータ） (2024-06-07T12:12:25Z)
LatentColorization: Latent Diffusion-Based Speaker Video Colorization [1.2641141743223379]
ビデオのカラー化における時間的一貫性を実現するための新しいソリューションを提案する。既存の手法と比較して,確立された画像品質指標の大幅な改善を示す。我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
論文参考訳（メタデータ） (2024-05-09T12:06:06Z)
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文参考訳（メタデータ） (2024-03-19T17:59:18Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
Exemplar-based Video Colorization with Long-term Spatiotemporal Dependency [10.223719035434586]
外見に基づく映像のカラー化は、古い映画復元のような応用に欠かせない技術である。本稿では,長期間の時間依存性を考慮したビデオカラー化フレームワークを提案する。我々のモデルは、特に物体が大きく不規則に変化する場面において、よりカラフルでリアルで安定した結果を生み出すことができる。
論文参考訳（メタデータ） (2023-03-27T10:45:00Z)
Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文参考訳（メタデータ） (2022-07-19T04:44:08Z)
TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文参考訳（メタデータ） (2021-06-14T10:33:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。