論文の概要: AICL: Action In-Context Learning for Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.11535v2
- Date: Fri, 23 Aug 2024 07:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 19:49:07.032930
- Title: AICL: Action In-Context Learning for Video Diffusion Model
- Title(参考訳): AICL:ビデオ拡散モデルのためのアクション・インコンテキスト・ラーニング
- Authors: Jianzhi Liu, Junchen Zhu, Lianli Gao, Heng Tao Shen, Jingkuan Song,
- Abstract要約: 本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。
大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
- 参考スコア(独自算出の注目度): 124.39948693332552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The open-domain video generation models are constrained by the scale of the training video datasets, and some less common actions still cannot be generated. Some researchers explore video editing methods and achieve action generation by editing the spatial information of the same action video. However, this method mechanically generates identical actions without understanding, which does not align with the characteristics of open-domain scenarios. In this paper, we propose AICL, which empowers the generative model with the ability to understand action information in reference videos, similar to how humans do, through in-context learning. Extensive experiments demonstrate that AICL effectively captures the action and achieves state-of-the-art generation performance across three typical video diffusion models on five metrics when using randomly selected categories from non-training datasets.
- Abstract(参考訳): オープンドメインのビデオ生成モデルは、トレーニングビデオデータセットの規模によって制限されており、あまり一般的でないアクションは生成できない。
一部の研究者は、同じアクションビデオの空間情報を編集することで、動画編集手法を探求し、アクション生成を実現する。
しかし,本手法は,オープンドメインシナリオの特徴と一致しない,理解のない同一動作を機械的に生成する。
本稿では,AICLを提案する。AICLは,テキスト内学習を通じて,人間が行うのと同じように,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現する。
大規模な実験により、AICLはアクションを効果的にキャプチャし、トレーニングされていないデータセットからランダムに選択されたカテゴリを使用する場合、5つのメトリクスで3つの典型的なビデオ拡散モデルにまたがる最先端の生成性能を達成することが示された。
関連論文リスト
- Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Multi-Modal Unsupervised Pre-Training for Surgical Operating Room
Workflow Analysis [4.866110274299399]
本稿では,単一のビデオフレームや画像に対して,マルチモーダルデータを融合する新しい手法を提案する。
マルチモーダルデータを異なるビューとして扱い、クラスタリングを介して教師なしの方法でモデルを訓練する。
以上の結果から,手術映像の動作認識とセマンティックセグメンテーションにおけるアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2022-07-16T10:32:27Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - Exploring Relations in Untrimmed Videos for Self-Supervised Learning [17.670226952829506]
既存の自己教師付き学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
非時間ビデオ(ERUV)における探索関係(Exploring Relations in Untemporal Videos)と呼ばれる,新たな自己管理手法を提案する。
ERUVはよりリッチな表現を学習することができ、最先端の自己管理手法よりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2020-08-06T15:29:25Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。