論文の概要: AICL: Action In-Context Learning for Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.11535v2
- Date: Fri, 23 Aug 2024 07:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 19:49:07.032930
- Title: AICL: Action In-Context Learning for Video Diffusion Model
- Title(参考訳): AICL:ビデオ拡散モデルのためのアクション・インコンテキスト・ラーニング
- Authors: Jianzhi Liu, Junchen Zhu, Lianli Gao, Heng Tao Shen, Jingkuan Song,
- Abstract要約: 本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。
大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
- 参考スコア(独自算出の注目度): 124.39948693332552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The open-domain video generation models are constrained by the scale of the training video datasets, and some less common actions still cannot be generated. Some researchers explore video editing methods and achieve action generation by editing the spatial information of the same action video. However, this method mechanically generates identical actions without understanding, which does not align with the characteristics of open-domain scenarios. In this paper, we propose AICL, which empowers the generative model with the ability to understand action information in reference videos, similar to how humans do, through in-context learning. Extensive experiments demonstrate that AICL effectively captures the action and achieves state-of-the-art generation performance across three typical video diffusion models on five metrics when using randomly selected categories from non-training datasets.
- Abstract(参考訳): オープンドメインのビデオ生成モデルは、トレーニングビデオデータセットの規模によって制限されており、あまり一般的でないアクションは生成できない。
一部の研究者は、同じアクションビデオの空間情報を編集することで、動画編集手法を探求し、アクション生成を実現する。
しかし,本手法は,オープンドメインシナリオの特徴と一致しない,理解のない同一動作を機械的に生成する。
本稿では,AICLを提案する。AICLは,テキスト内学習を通じて,人間が行うのと同じように,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現する。
大規模な実験により、AICLはアクションを効果的にキャプチャし、トレーニングされていないデータセットからランダムに選択されたカテゴリを使用する場合、5つのメトリクスで3つの典型的なビデオ拡散モデルにまたがる最先端の生成性能を達成することが示された。
関連論文リスト
- Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文 参考訳(メタデータ) (2024-07-09T07:53:16Z) - Towards Multimodal Video Paragraph Captioning Models Robust to Missing Modality [26.55645677311152]
ビデオキャプション(VPC)は、長いビデオのための詳細な物語を生成する。
既存のモデルは、1つの補助モダリティの一定の可用性の仮定によって制約される。
本稿では, 利用可能な全ての補助入力を有効活用し, 一定のモダリティがなくてもレジリエンスを維持する, ミス・抵抗性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T08:35:46Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive
Survey [32.526118672614345]
行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。
既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。
ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
論文 参考訳(メタデータ) (2022-11-17T05:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。