論文の概要: Adaptive Compact Attention For Few-shot Video-to-video Translation
- arxiv url: http://arxiv.org/abs/2011.14695v1
- Date: Mon, 30 Nov 2020 11:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:44:59.559585
- Title: Adaptive Compact Attention For Few-shot Video-to-video Translation
- Title(参考訳): 動画翻訳のための適応型コンパクトアテンション
- Authors: Risheng Huang, Li Shen, Xuan Wang, Cheng Lin, Hao-Zhi Huang
- Abstract要約: 本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。
提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
- 参考スコア(独自算出の注目度): 13.535988102579918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an adaptive compact attention model for few-shot
video-to-video translation. Existing works in this domain only use features
from pixel-wise attention without considering the correlations among multiple
reference images, which leads to heavy computation but limited performance.
Therefore, we introduce a novel adaptive compact attention mechanism to
efficiently extract contextual features jointly from multiple reference images,
of which encoded view-dependent and motion-dependent information can
significantly benefit the synthesis of realistic videos. Our core idea is to
extract compact basis sets from all the reference images as higher-level
representations. To further improve the reliability, in the inference phase, we
also propose a novel method based on the Delaunay Triangulation algorithm to
automatically select the resourceful references according to the input label.
We extensively evaluate our method on a large-scale talking-head video dataset
and a human dancing dataset; the experimental results show the superior
performance of our method for producing photorealistic and temporally
consistent videos, and considerable improvements over the state-of-the-art
method.
- Abstract(参考訳): 本稿では,映像翻訳のための適応型コンパクトアテンションモデルを提案する。
この領域における既存の作業では、複数の参照画像間の相関を考慮せずにピクセル単位の機能しか使用せず、計算量が多いが性能は限られている。
そこで本研究では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
私たちの核となるアイデアは、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することです。
さらに信頼性を向上させるため,提案手法はデラウネー三角法に基づく新しい手法で,入力ラベルに従って資源豊富な参照を自動的に選択する手法も提案する。
提案手法を大規模トーキングヘッドビデオデータセットとヒトダンスデータセットで広範囲に評価し, 実験結果から, 光写実的, 時間的に一貫したビデオを生成する手法の優れた性能を示し, 最先端の手法よりも大幅に改善した。
関連論文リスト
- RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。