論文の概要: GenRec: Unifying Video Generation and Recognition with Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.15241v1
- Date: Tue, 27 Aug 2024 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 12:53:10.579151
- Title: GenRec: Unifying Video Generation and Recognition with Diffusion Models
- Title(参考訳): GenRec: 拡散モデルによるビデオ生成と認識の統合
- Authors: Zejia Weng, Xitong Yang, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 我々は、ランダムフレーム条件付けプロセスでトレーニングされた最初の統一フレームワークであるGenRecを紹介する。
実験は、認識と生成の両方にGenRecの有効性を示す。
GenRecはまた、最高のクラス条件の画像-ビデオ生成結果も実行します。
- 参考スコア(独自算出の注目度): 84.09742789053206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video diffusion models are able to generate high-quality videos by learning strong spatial-temporal priors on large-scale datasets. In this paper, we aim to investigate whether such priors derived from a generative process are suitable for video recognition, and eventually joint optimization of generation and recognition. Building upon Stable Video Diffusion, we introduce GenRec, the first unified framework trained with a random-frame conditioning process so as to learn generalized spatial-temporal representations. The resulting framework can naturally supports generation and recognition, and more importantly is robust even when visual inputs contain limited information. Extensive experiments demonstrate the efficacy of GenRec for both recognition and generation. In particular, GenRec achieves competitive recognition performance, offering 75.8% and 87.2% accuracy on SSV2 and K400, respectively. GenRec also performs the best class-conditioned image-to-video generation results, achieving 46.5 and 49.3 FVD scores on SSV2 and EK-100 datasets. Furthermore, GenRec demonstrates extraordinary robustness in scenarios that only limited frames can be observed.
- Abstract(参考訳): ビデオ拡散モデルは、大規模データセット上で強い時空間先行を学習することにより、高品質なビデオを生成することができる。
本稿では,生成プロセスから派生したものがビデオ認識に適したのか,最終的に生成と認識の協調最適化を行うかを検討することを目的とする。
GenRecは、ランダムなフレーム条件付けプロセスでトレーニングされた最初の統一されたフレームワークで、一般化された時空間表現を学習する。
結果として得られるフレームワークは、生成と認識を自然にサポートすることができ、さらに重要なことは、視覚的な入力が限られた情報を含む場合でも堅牢である。
広範囲にわたる実験は、認識と生成の両方にGenRecの有効性を示す。
特にGenRecは、SSV2とK400でそれぞれ75.8%と87.2%の精度で、競争力のある性能を実現している。
GenRecはまた、SSV2とEK-100データセット上で46.5と49.3のFVDスコアを達成し、最高のクラス条件の画像-ビデオ生成結果も実行している。
さらに、GenRecは限られたフレームしか観察できないシナリオにおいて、異常な堅牢性を示す。
関連論文リスト
- ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning [29.620990627792906]
本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。
大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
論文 参考訳(メタデータ) (2024-05-24T02:29:03Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Exploiting the ConvLSTM: Human Action Recognition using Raw Depth
Video-Based Recurrent Neural Networks [0.0]
本稿では,畳み込み長短期記憶ユニット,すなわちConvLSTMに基づく2つのニューラルネットワークを提案し,比較する。
提案モデルは,最先端手法と比較して,計算コストの低い競合認識精度を実現する。
論文 参考訳(メタデータ) (2020-06-13T23:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。