論文の概要: EchoReel: Enhancing Action Generation of Existing Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.11535v1
- Date: Mon, 18 Mar 2024 07:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:16:57.320068
- Title: EchoReel: Enhancing Action Generation of Existing Video Diffusion Models
- Title(参考訳): EchoReel:既存のビデオ拡散モデルのアクション生成を促進する
- Authors: Jianzhi liu, Junchen Zhu, Lianli Gao, Jingkuan Song,
- Abstract要約: EchoReelは、既存のビデオからのモーションをエミュレートすることで、複雑なアクションを生成するためのVDMの機能を強化する新しいアプローチである。
Action Prismは参照ビデオからモーション情報を抽出する。
- 参考スコア(独自算出の注目度): 88.46315262023045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large-scale video datasets have facilitated the generation of diverse open-domain videos of Video Diffusion Models (VDMs). Nonetheless, the efficacy of VDMs in assimilating complex knowledge from these datasets remains constrained by their inherent scale, leading to suboptimal comprehension and synthesis of numerous actions. In this paper, we introduce EchoReel, a novel approach to augment the capability of VDMs in generating intricate actions by emulating motions from pre-existing videos, which are readily accessible from databases or online repositories. EchoReel seamlessly integrates with existing VDMs, enhancing their ability to produce realistic motions without compromising their fundamental capabilities. Specifically, the Action Prism (AP), is introduced to distill motion information from reference videos, which requires training on only a small dataset. Leveraging the knowledge from pre-trained VDMs, EchoReel incorporates new action features into VDMs through the additional layers, eliminating the need for any further fine-tuning of untrained actions. Extensive experiments demonstrate that EchoReel is not merely replicating the whole content from references, and it significantly improves the generation of realistic actions, even in situations where existing VDMs might directly fail.
- Abstract(参考訳): 最近の大規模ビデオデータセットは、ビデオ拡散モデル(VDM)の多様なオープンドメインビデオの生成を容易にしている。
それでも、これらのデータセットから複雑な知識を同化するためのVDMの有効性は、その固有のスケールによって制約され続けており、多くのアクションの最適下理解と合成に繋がる。
本稿では,既存のビデオからの動作をエミュレートすることで,VDMの複雑なアクション生成能力を高める新しいアプローチであるEchoReelを紹介する。
EchoReelは既存のVDMとシームレスに統合され、基本的な能力を損なうことなくリアルなモーションを生成する能力を高める。
具体的には、アクションプリズム(AP)は、参照ビデオからモーション情報を抽出するために導入され、小さなデータセットのみをトレーニングする必要がある。
事前トレーニングされたVDMからの知識を活用することで、EchoReelは新たなアクション機能を付加レイヤを通じてVDMに組み込むことで、トレーニングされていないアクションをさらに微調整する必要がなくなる。
大規模な実験は、EchoReelが単に参照からコンテンツ全体を複製しているだけでなく、既存のVDMが直接失敗する可能性のある状況であっても、現実的なアクションの生成を大幅に改善していることを示している。
関連論文リスト
- Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Multi-Modal Unsupervised Pre-Training for Surgical Operating Room
Workflow Analysis [4.866110274299399]
本稿では,単一のビデオフレームや画像に対して,マルチモーダルデータを融合する新しい手法を提案する。
マルチモーダルデータを異なるビューとして扱い、クラスタリングを介して教師なしの方法でモデルを訓練する。
以上の結果から,手術映像の動作認識とセマンティックセグメンテーションにおけるアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2022-07-16T10:32:27Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - Exploring Relations in Untrimmed Videos for Self-Supervised Learning [17.670226952829506]
既存の自己教師付き学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
非時間ビデオ(ERUV)における探索関係(Exploring Relations in Untemporal Videos)と呼ばれる,新たな自己管理手法を提案する。
ERUVはよりリッチな表現を学習することができ、最先端の自己管理手法よりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2020-08-06T15:29:25Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。