論文の概要: Human Video Translation via Query Warping
- arxiv url: http://arxiv.org/abs/2402.12099v1
- Date: Mon, 19 Feb 2024 12:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:37:45.615053
- Title: Human Video Translation via Query Warping
- Title(参考訳): 問合せワーピングによる人間のビデオ翻訳
- Authors: Haiming Zhu and Yangyang Xu and Shengfeng He
- Abstract要約: 本稿では,時間的コヒーレントなヒューマンモーションビデオ翻訳のための新しいフレームワークであるQueryWarpを紹介する。
外観フローを使用して、前のフレームのクエリトークンをワープし、現在のフレームのクエリと整合させます。
このクエリワープは、自己アテンション層の出力に明示的な制約を課し、時間的コヒーレントな翻訳を効果的に保証する。
- 参考スコア(独自算出の注目度): 43.74055602005864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present QueryWarp, a novel framework for temporally
coherent human motion video translation. Existing diffusion-based video editing
approaches that rely solely on key and value tokens to ensure temporal
consistency, which scarifies the preservation of local and structural regions.
In contrast, we aim to consider complementary query priors by constructing the
temporal correlations among query tokens from different frames. Initially, we
extract appearance flows from source poses to capture continuous human
foreground motion. Subsequently, during the denoising process of the diffusion
model, we employ appearance flows to warp the previous frame's query token,
aligning it with the current frame's query. This query warping imposes explicit
constraints on the outputs of self-attention layers, effectively guaranteeing
temporally coherent translation. We perform experiments on various human motion
video translation tasks, and the results demonstrate that our QueryWarp
framework surpasses state-of-the-art methods both qualitatively and
quantitatively.
- Abstract(参考訳): 本稿では,時間的コヒーレントなヒューマンモーションビデオ翻訳のための新しいフレームワークであるQueryWarpを提案する。
局所的および構造的領域の保存を損なう時間的一貫性を確保するために、キーと値のトークンのみに依存する、既存の拡散ベースのビデオ編集アプローチ。
対照的に,異なるフレームからの問合せトークン間の時間的相関関係を構築することにより,補足的な問合せ優先を考えることを目的とする。
まず,人間の前景運動を連続的に捉えるために,音源ポーズから出現フローを抽出する。
その後,拡散モデルの復調過程において,従来のフレームのクエリトークンをワープするために出現フローを用いて,現在のフレームのクエリと整合する。
このクエリワーピングは、自己接続層の出力に明示的な制約を課し、時間的コヒーレントな翻訳を効果的に保証する。
我々は,人間の動画像翻訳タスクについて実験を行い,QueryWarpフレームワークが定性的かつ定量的に最先端の手法を超えることを示す。
関連論文リスト
- LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video
Translation [21.815083817914843]
我々はtextitLatentWarp というゼロショット動画翻訳フレームワークを提案する。
我々のアプローチは単純で、クエリトークンの時間的一貫性を制約するために、潜伏した空間にワープ操作を組み込む。
textitLatentWarpの時間的コヒーレンスによるビデオ間翻訳における優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-11-01T08:02:57Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。
最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。
提案手法は, 対実的相互モダリティ推論法である。
論文 参考訳(メタデータ) (2023-08-10T15:45:45Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。