論文の概要: Leaping Into Memories: Space-Time Deep Feature Synthesis
- arxiv url: http://arxiv.org/abs/2303.09941v4
- Date: Tue, 25 Jul 2023 12:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 21:00:15.613037
- Title: Leaping Into Memories: Space-Time Deep Feature Synthesis
- Title(参考訳): 記憶に跳躍する: 時空深層特徴合成
- Authors: Alexandros Stergiou and Nikos Deligiannis
- Abstract要約: 内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
- 参考スコア(独自算出の注目度): 93.10032043225362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of deep learning models has led to their adaptation and adoption
by prominent video understanding methods. The majority of these approaches
encode features in a joint space-time modality for which the inner workings and
learned representations are difficult to visually interpret. We propose LEArned
Preconscious Synthesis (LEAPS), an architecture-independent method for
synthesizing videos from the internal spatiotemporal representations of models.
Using a stimulus video and a target class, we prime a fixed space-time model
and iteratively optimize a video initialized with random noise. Additional
regularizers are used to improve the feature diversity of the synthesized
videos alongside the cross-frame temporal coherence of motions. We
quantitatively and qualitatively evaluate the applicability of LEAPS by
inverting a range of spatiotemporal convolutional and attention-based
architectures trained on Kinetics-400, which to the best of our knowledge has
not been previously accomplished.
- Abstract(参考訳): ディープラーニングモデルの成功は、顕著なビデオ理解手法による適応と採用につながった。
これらのアプローチの大部分は、内部動作と学習された表現が視覚的に解釈するのが困難である共同時空モダリティの特徴を符号化している。
本稿では,モデルの内部時空間表現から映像を合成するためのアーキテクチャに依存しない手法であるleapsを提案する。
刺激映像と対象クラスを用いて固定時空モデルを生成し,無作為な雑音により初期化された映像を反復的に最適化する。
追加の正規化器は、モーションのクロスフレーム時間的コヒーレンスと共に合成ビデオの特徴多様性を改善するために使用される。
我々は,Kineetics-400で訓練された多種多様な時空間畳み込みおよび注意に基づくアーキテクチャを逆転させることにより,LEAPSの適用性を定量的に,質的に評価する。
関連論文リスト
- Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Orthogonal Temporal Interpolation for Zero-Shot Video Recognition [45.53856045374685]
ゼロショットビデオ認識(ゼロショットビデオ認識、ZSVR)は、モデルトレーニングプロセス中に見たことのないビデオカテゴリの認識を目的としたタスクである。
近年の視覚言語モデル (VLM) は, 大規模画像テキストペアで事前訓練されている。
論文 参考訳(メタデータ) (2023-08-14T02:26:49Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。