論文の概要: Inductive and Transductive Few-Shot Video Classification via Appearance
and Temporal Alignments
- arxiv url: http://arxiv.org/abs/2207.10785v1
- Date: Thu, 21 Jul 2022 23:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:55:40.885092
- Title: Inductive and Transductive Few-Shot Video Classification via Appearance
and Temporal Alignments
- Title(参考訳): インダクティブ・トランスダクティブ・マイノショットビデオの外観と時間的アライメントによる分類
- Authors: Khoi D. Nguyen, Quoc-Huy Tran, Khoi Nguyen, Binh-Son Hua, Rang Nguyen
- Abstract要約: 本稿では,出現と時間的アライメントを行う数ショット映像分類の新しい手法を提案する。
提案手法は, 両方のデータセットにおいて, 従来手法と類似した, あるいは良好な結果が得られる。
- 参考スコア(独自算出の注目度): 17.673345523918947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel method for few-shot video classification, which performs
appearance and temporal alignments. In particular, given a pair of query and
support videos, we conduct appearance alignment via frame-level feature
matching to achieve the appearance similarity score between the videos, while
utilizing temporal order-preserving priors for obtaining the temporal
similarity score between the videos. Moreover, we introduce a few-shot video
classification framework that leverages the above appearance and temporal
similarity scores across multiple steps, namely prototype-based training and
testing as well as inductive and transductive prototype refinement. To the best
of our knowledge, our work is the first to explore transductive few-shot video
classification. Extensive experiments on both Kinetics and Something-Something
V2 datasets show that both appearance and temporal alignments are crucial for
datasets with temporal order sensitivity such as Something-Something V2. Our
approach achieves similar or better results than previous methods on both
datasets. Our code is available at https://github.com/VinAIResearch/fsvc-ata.
- Abstract(参考訳): 本稿では,出現と時間的アライメントを行う数ショット映像分類の新しい手法を提案する。
特に,一対のクエリとサポートビデオに対して,フレームレベルの特徴マッチングによる外観アライメントを行い,映像間の外観類似度スコアを達成するとともに,映像間の時間的類似度スコアを得るための時間的順序保存先行値を利用する。
さらに,複数のステップ,すなわち,プロトタイプベースのトレーニングとテスト,インダクティブおよびトランスダクティブなプロトタイプ改良といった,上記の外観と時間的類似度を生かした数ショットビデオ分類フレームワークを導入する。
我々の知る限りでは、我々の研究は初めて、トランスダクティブな数ショットビデオ分類を探求する。
KineticsとSomething V2データセットの大規模な実験により、Something V2のような時間的順序感受性を持つデータセットには、外観と時間的アライメントの両方が不可欠であることが示されている。
提案手法は, 従来手法と類似した, あるいは良好な結果が得られる。
私たちのコードはhttps://github.com/VinAIResearch/fsvc-ataで利用可能です。
関連論文リスト
- Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Temporal Alignment Prediction for Few-Shot Video Classification [17.18278071760926]
数ショットビデオ分類のためのシーケンス類似性学習に基づく時間アライメント予測(TAP)を提案する。
2つのビデオの類似性を得るために,2つのビデオの時間的位置のすべてのペア間のアライメントスコアを予測した。
我々は、KineeticsとSomething V2を含む2つのビデオ分類ベンチマークでTAPを評価した。
論文 参考訳(メタデータ) (2021-07-26T05:12:27Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Temporal-Relational CrossTransformers for Few-Shot Action Recognition [82.0033565755246]
提案手法は,サポートセット内のクエリとビデオの間に時間的対応性のあるフレームを見出すことである。
先行研究とは別として,全サポートビデオの関連サブシーケンスを観察するために,クロストランスフォーマアテンション機構を用いたクラスプロトタイプを構築した。
詳細なアブレーションは、複数のサポートセットビデオとマッチングし、高階クロストランスフォーマーを学ぶことの重要性を示しています。
論文 参考訳(メタデータ) (2021-01-15T15:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。