Fugu-MT 論文翻訳(概要): Human Video Translation via Query Warping

論文の概要: Human Video Translation via Query Warping

arxiv url: http://arxiv.org/abs/2402.12099v1
Date: Mon, 19 Feb 2024 12:28:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 16:37:45.615053
Title: Human Video Translation via Query Warping
Title（参考訳）: 問合せワーピングによる人間のビデオ翻訳
Authors: Haiming Zhu and Yangyang Xu and Shengfeng He
Abstract要約: 本稿では,時間的コヒーレントなヒューマンモーションビデオ翻訳のための新しいフレームワークであるQueryWarpを紹介する。外観フローを使用して、前のフレームのクエリトークンをワープし、現在のフレームのクエリと整合させます。このクエリワープは、自己アテンション層の出力に明示的な制約を課し、時間的コヒーレントな翻訳を効果的に保証する。
参考スコア（独自算出の注目度）: 43.74055602005864
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we present QueryWarp, a novel framework for temporally coherent human motion video translation. Existing diffusion-based video editing approaches that rely solely on key and value tokens to ensure temporal consistency, which scarifies the preservation of local and structural regions. In contrast, we aim to consider complementary query priors by constructing the temporal correlations among query tokens from different frames. Initially, we extract appearance flows from source poses to capture continuous human foreground motion. Subsequently, during the denoising process of the diffusion model, we employ appearance flows to warp the previous frame's query token, aligning it with the current frame's query. This query warping imposes explicit constraints on the outputs of self-attention layers, effectively guaranteeing temporally coherent translation. We perform experiments on various human motion video translation tasks, and the results demonstrate that our QueryWarp framework surpasses state-of-the-art methods both qualitatively and quantitatively.
Abstract（参考訳）: 本稿では,時間的コヒーレントなヒューマンモーションビデオ翻訳のための新しいフレームワークであるQueryWarpを提案する。局所的および構造的領域の保存を損なう時間的一貫性を確保するために、キーと値のトークンのみに依存する、既存の拡散ベースのビデオ編集アプローチ。対照的に,異なるフレームからの問合せトークン間の時間的相関関係を構築することにより,補足的な問合せ優先を考えることを目的とする。まず,人間の前景運動を連続的に捉えるために,音源ポーズから出現フローを抽出する。その後,拡散モデルの復調過程において,従来のフレームのクエリトークンをワープするために出現フローを用いて,現在のフレームのクエリと整合する。このクエリワーピングは、自己接続層の出力に明示的な制約を課し、時間的コヒーレントな翻訳を効果的に保証する。我々は,人間の動画像翻訳タスクについて実験を行い,QueryWarpフレームワークが定性的かつ定量的に最先端の手法を超えることを示す。

関連論文リスト

Emergent Temporal Correspondences from Video Diffusion Transformers [30.83001895223298]
DiffTrackは、この問題に答えるために設計された最初の定量的分析フレームワークである。分析の結果,特定のクエリキーの類似性がすべてではないが,時間的マッチングにおいて重要な役割を担っていることが明らかとなった。本研究は,映像の時間的整合性を改善する新たなガイダンス法により,動画の動作向上に拡張する。
論文参考訳（メタデータ） (2025-06-20T17:59:55Z)
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。 We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文参考訳（メタデータ） (2025-01-15T18:59:15Z)
Discrete to Continuous: Generating Smooth Transition Poses from Sign Language Observation [45.214169930573775]
本研究では,文脈的に滑らかな遷移フレームを合成するための条件拡散モデルを提案する。本手法は,遷移フレーム生成の教師なし問題を教師なし学習タスクに変換する。 PHO14TENIX, USTC-CSL100, USTC-500データセットを用いた実験により, 本手法の有効性が示された。
論文参考訳（メタデータ） (2024-11-25T15:06:49Z)
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文参考訳（メタデータ） (2024-07-11T17:34:51Z)
Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T15:01:16Z)
LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video Translation [21.815083817914843]
我々はtextitLatentWarp というゼロショット動画翻訳フレームワークを提案する。我々のアプローチは単純で、クエリトークンの時間的一貫性を制約するために、潜伏した空間にワープ操作を組み込む。 textitLatentWarpの時間的コヒーレンスによるビデオ間翻訳における優位性を示す実験結果を得た。
論文参考訳（メタデータ） (2023-11-01T08:02:57Z)
RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文参考訳（メタデータ） (2023-08-11T12:17:24Z)
Counterfactual Cross-modality Reasoning for Weakly Supervised Video Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。提案手法は, 対実的相互モダリティ推論法である。
論文参考訳（メタデータ） (2023-08-10T15:45:45Z)
Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。 AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文参考訳（メタデータ） (2021-11-22T18:59:58Z)
Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文参考訳（メタデータ） (2021-03-04T12:18:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。