論文の概要: REST: REtrieve & Self-Train for generative action recognition
- arxiv url: http://arxiv.org/abs/2209.15000v1
- Date: Thu, 29 Sep 2022 17:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 16:00:50.309190
- Title: REST: REtrieve & Self-Train for generative action recognition
- Title(参考訳): REST: ジェネレーティブアクション認識のためのRetrieveとSelf-Train
- Authors: Adrian Bulat and Enrique Sanchez and Brais Martinez and Georgios
Tzimiropoulos
- Abstract要約: 本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
- 参考スコア(独自算出の注目度): 54.90704746573636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work is on training a generative action/video recognition model whose
output is a free-form action-specific caption describing the video (rather than
an action class label). A generative approach has practical advantages like
producing more fine-grained and human-readable output, and being naturally
open-world. To this end, we propose to adapt a pre-trained generative Vision &
Language (V&L) Foundation Model for video/action recognition. While recently
there have been a few attempts to adapt V&L models trained with contrastive
learning (e.g. CLIP) for video/action, to the best of our knowledge, we propose
the very first method that sets outs to accomplish this goal for a generative
model. We firstly show that direct fine-tuning of a generative model to produce
action classes suffers from severe overfitting. To alleviate this, we introduce
REST, a training framework consisting of two key components: an unsupervised
method for adapting the generative model to action/video by means of
pseudo-caption generation and Self-training, i.e. without using any
action-specific labels; (b) a Retrieval approach based on CLIP for discovering
a diverse set of pseudo-captions for each video to train the model.
Importantly, we show that both components are necessary to obtain high
accuracy. We evaluate REST on the problem of zero-shot action recognition where
we show that our approach is very competitive when compared to contrastive
learning-based methods. Code will be made available.
- Abstract(参考訳): 本研究は、(アクションクラスラベルではなく)ビデオを記述する自由形式のアクション特有のキャプションを出力とする生成的アクション/ビデオ認識モデルを訓練することである。
生成的アプローチは、よりきめ細かい、人間が読めるアウトプットを生成し、自然にオープンワールドであるといった実用的な利点がある。
そこで本研究では,事前学習した生成視覚言語(v&l)基盤モデルを映像・動作認識に適応させる手法を提案する。
最近、ビデオ/アクションにコントラスト学習(例:クリップ)で訓練されたv&lモデルを最善の知識に適応させる試みがいくつかあったが、私たちはこの目標を生成モデルで達成するための最初の方法を提案する。
まず、アクションクラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
これを緩和するために、restは2つの重要なコンポーネントからなるトレーニングフレームワークである: 擬似カプセル生成と自己学習によって生成モデルをアクション/ビデオに適応させる教師なしの方法、すなわち、アクション固有のラベルを使わずに、(b)各ビデオの疑似カプセル化の多種多様な集合を発見してモデルを訓練するためのクリップに基づく検索アプローチ。
重要なことは、両コンポーネントが高い精度を得るために必要であることを示している。
我々は,ゼロショット動作認識の問題に対するrestの評価を行い,対照学習に基づく手法と比較して,我々のアプローチが極めて競争力が高いことを示す。
コードは利用可能になる。
関連論文リスト
- AICL: Action In-Context Learning for Video Diffusion Model [124.39948693332552]
本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。
大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2024-03-18T07:41:19Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。