Fugu-MT 論文翻訳(概要): Towards Unified Keyframe Propagation Models

論文の概要: Towards Unified Keyframe Propagation Models

arxiv url: http://arxiv.org/abs/2205.09731v1
Date: Thu, 19 May 2022 17:40:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-20 13:56:34.877966
Title: Towards Unified Keyframe Propagation Models
Title（参考訳）: 統一キーフレーム伝播モデルに向けて
Authors: Patrick Esser and Peter Michael and Soumyadip Sengupta
Abstract要約: 本稿では,高周波特徴が局所的に相互作用し,低周波特徴がグローバルに相互作用する2ストリーム手法を提案する。実験の結果,画像の塗布に必要な単一フレーム内の特徴の伝搬と,トランスフォーマーからターゲットフレームへの伝搬の両方が改善された。
参考スコア（独自算出の注目度）: 17.240459042738745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many video editing tasks such as rotoscoping or object removal require the propagation of context across frames. While transformers and other attention-based approaches that aggregate features globally have demonstrated great success at propagating object masks from keyframes to the whole video, they struggle to propagate high-frequency details such as textures faithfully. We hypothesize that this is due to an inherent bias of global attention towards low-frequency features. To overcome this limitation, we present a two-stream approach, where high-frequency features interact locally and low-frequency features interact globally. The global interaction stream remains robust in difficult situations such as large camera motions, where explicit alignment fails. The local interaction stream propagates high-frequency details through deformable feature aggregation and, informed by the global interaction stream, learns to detect and correct errors of the deformation field. We evaluate our two-stream approach for inpainting tasks, where experiments show that it improves both the propagation of features within a single frame as required for image inpainting, as well as their propagation from keyframes to target frames. Applied to video inpainting, our approach leads to 44% and 26% improvements in FID and LPIPS scores. Code at https://github.com/runwayml/guided-inpainting
Abstract（参考訳）: ロトスコープやオブジェクト削除などの多くのビデオ編集タスクは、フレーム間のコンテキストの伝搬を必要とする。トランスフォーマーや他の注目に基づく機能集約アプローチは、キーフレームからビデオ全体へのオブジェクトマスクの伝播に大きな成功を収めている一方で、テクスチャなどの高周波の詳細を忠実に伝播するのに苦労している。これは低周波特性に対する世界的注意の偏りによるものであると仮定する。この制限を克服するために、高周波数特徴が局所的に相互作用し、低周波数特徴がグローバルに相互作用する2ストリームアプローチを提案する。グローバルな相互作用ストリームは、明示的なアライメントが失敗する大きなカメラモーションのような困難な状況において、引き続き堅牢である。局所的な相互作用ストリームは、変形可能な特徴集約を通じて高周波の詳細を伝播し、グローバルな相互作用ストリームによって通知され、変形フィールドのエラーを検出し、修正する。そこでは,画像の描画に必要な単一フレーム内の特徴の伝搬と,キーフレームからターゲットフレームへの伝搬を両立させる実験を行った。ビデオインペインティングに適用すると,fidスコアとlpipsスコアは44%,26%改善した。 Code at https://github.com/runwayml/guided-inpainting

関連論文リスト

Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation [21.117226880898418]
超音波ビデオセグメンテーションにおける雑音の頑健性を高めるための新しいフレームワークを提案する。 Dual Semantic-Aware Network (DSANet)は、局所的特徴とグローバル的特徴の相互意味認識を促進する。我々のモデルは画素レベルの特徴依存を回避し、ビデオベース手法よりもはるかに高い推論FPSを実現し、画像ベースモデルを超えている。
論文参考訳（メタデータ） (2025-07-10T05:41:17Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields [39.214857326425204]
ビデオフレーム補間 (VFI) は連続的な入力フレーム間の中間映像フレームを生成することを目的としている。クロスモーダルな非対称な双方向運動場推定を行うイベントベースVFIフレームワークを提案する。提案手法は, 各種データセット上での最先端VFI法よりも高い性能向上を示す。
論文参考訳（メタデータ） (2025-02-19T13:40:43Z)
Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior [13.595032265551184]
ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。本稿では,冗長計算を選択的に削減する適応型動き誘導型クロスフレームアテンション機構を提案する。これにより、同じ計算予算内でより多くのフレームにクロスフレームの注意を向けることができる。
論文参考訳（メタデータ） (2024-06-07T12:12:25Z)
Aggregating Nearest Sharp Features via Hybrid Transformers for Video Deblurring [70.06559269075352]
本稿では,隣接するフレームと既存のシャープフレームの両方を特徴集約のためにハイブリッドトランスフォーマーを用いて活用するビデオデブロアリング手法を提案する。検出されたシャープフレームから最も近いシャープ特徴を集約するために,マルチスケールマッチング機能を備えたグローバルトランスを利用する。提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文参考訳（メタデータ） (2023-09-13T16:12:11Z)
Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。 WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文参考訳（メタデータ） (2023-09-07T06:41:15Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文参考訳（メタデータ） (2023-01-12T18:19:00Z)
E-VFIA : Event-Based Video Frame Interpolation with Attention [8.93294761619288]
軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。 E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
論文参考訳（メタデータ） (2022-09-19T21:40:32Z)
TTVFI: Learning Trajectory-Aware Transformer for Video Frame Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文参考訳（メタデータ） (2022-07-19T03:37:49Z)
Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文参考訳（メタデータ） (2021-11-27T05:35:10Z)
TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文参考訳（メタデータ） (2021-06-14T10:33:47Z)
ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2020-08-31T21:11:53Z)
All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。この研究は、真のマルチフレーム補間子を導入している。時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文参考訳（メタデータ） (2020-07-23T02:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。