論文の概要: JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting
- arxiv url: http://arxiv.org/abs/2106.09679v1
- Date: Thu, 17 Jun 2021 17:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 17:32:42.823554
- Title: JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting
- Title(参考訳): JOKR:unsupervised cross-domain Motion Retargetingのための共同キーポイント表現
- Authors: Ron Mokady, Rotem Tzaban, Sagie Benaim, Amit H. Bermano and Daniel
Cohen-Or
- Abstract要約: ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
- 参考スコア(独自算出の注目度): 53.28477676794658
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The task of unsupervised motion retargeting in videos has seen substantial
advancements through the use of deep neural networks. While early works
concentrated on specific object priors such as a human face or body, recent
work considered the unsupervised case. When the source and target videos,
however, are of different shapes, current methods fail. To alleviate this
problem, we introduce JOKR - a JOint Keypoint Representation that captures the
motion common to both the source and target videos, without requiring any
object prior or data collection. By employing a domain confusion term, we
enforce the unsupervised keypoint representations of both videos to be
indistinguishable. This encourages disentanglement between the parts of the
motion that are common to the two domains, and their distinctive appearance and
motion, enabling the generation of videos that capture the motion of the one
while depicting the style of the other. To enable cases where the objects are
of different proportions or orientations, we apply a learned affine
transformation between the JOKRs. This augments the representation to be affine
invariant, and in practice broadens the variety of possible retargeting pairs.
This geometry-driven representation enables further intuitive control, such as
temporal coherence and manual editing. Through comprehensive experimentation,
we demonstrate the applicability of our method to different challenging
cross-domain video pairs. We evaluate our method both qualitatively and
quantitatively, and demonstrate that our method handles various cross-domain
scenarios, such as different animals, different flowers, and humans. We also
demonstrate superior temporal coherency and visual quality compared to
state-of-the-art alternatives, through statistical metrics and a user study.
Source code and videos can be found at https://rmokady.github.io/JOKR/ .
- Abstract(参考訳): ビデオにおける教師なしのモーションリターゲティングのタスクは、ディープニューラルネットワークを使うことで大幅に進歩した。
初期の研究は人間の顔や身体のような特定の対象に焦点を合わせていたが、最近の研究は教師なしのケースと見なされた。
しかし、ソースとターゲットのビデオが異なる形状であれば、現在の手法は失敗する。
この問題を軽減するため、jokr - オブジェクトやデータ収集を必要とせずに、ソースとターゲットビデオの両方に共通する動きをキャプチャする統合キーポイント表現である。
ドメイン混乱項を用いることで,両ビデオの教師なしのキーポイント表現を区別不能に強制する。
これにより、2つのドメインに共通する動きの一部と、その特徴的な外観と動きの間の絡み合いが促進され、他のドメインのスタイルを描きながら1つの動きをキャプチャするビデオを生成することができる。
対象が異なる比例や向きの場合には、JOKR間の学習されたアフィン変換を適用する。
これは表現をアフィン不変量に拡張し、実際には再ターゲティングペアの多様性を広げる。
この幾何学的表現は、時間的コヒーレンスや手動編集のようなより直感的な制御を可能にする。
包括的実験により,提案手法を異なる領域間ビデオペアに適用できることを実証する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
また,統計的指標とユーザスタディを通して,最先端の代替品と比較して優れた時間的一貫性と視覚品質を示す。
ソースコードとビデオはhttps://rmokady.github.io/JOKR/ で見ることができる。
関連論文リスト
- Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T22:05:09Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Self-Supervised Keypoint Discovery in Behavioral Videos [37.367739727481016]
本研究では, エージェントの姿勢と構造を, 乱れのない行動ビデオから学習する手法を提案する。
本手法では,ビデオフレーム間の差分を再構成するために,幾何的ボトルネックを持つエンコーダデコーダアーキテクチャを用いる。
動作領域のみに焦点をあてることで,手動のアノテーションを必要とせずに直接入力ビデオに焦点をあてる。
論文 参考訳(メタデータ) (2021-12-09T18:55:53Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - On Development and Evaluation of Retargeting Human Motion and Appearance
in Monocular Videos [2.870762512009438]
人間の俳優のビデオ間の人間の動きと外観の転送は、コンピュータビジョンの重要な課題の1つです。
本稿では,競争性のある視覚品質を示すハイブリッドイメージベースレンダリング技術に基づく,新規かつ高性能なアプローチを提案する。
また,人間の動画を合成するタスクを評価するために,アノテートされた人間の動きと異なる映像からなる新しいビデオベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:17:41Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Cross-Identity Motion Transfer for Arbitrary Objects through
Pose-Attentive Video Reassembling [40.20163225821707]
ソース画像とドライビングビデオが与えられた場合、このネットワークは、ドライビングビデオの動きに応じて、ソース画像中の被写体をアニメーション化する。
注意機構では、学習した音源のキーポイントと駆動画像との密接な類似性が計算される。
自己教師型学習のトレーニングテストの相違を低減するため、新しいクロスアイデンティティトレーニングスキームが導入された。
論文 参考訳(メタデータ) (2020-07-17T07:21:12Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。