論文の概要: Learning Implicit Temporal Alignment for Few-shot Video Classification
- arxiv url: http://arxiv.org/abs/2105.04823v1
- Date: Tue, 11 May 2021 07:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 00:15:12.847587
- Title: Learning Implicit Temporal Alignment for Few-shot Video Classification
- Title(参考訳): 極小映像分類のための暗黙的時間アライメントの学習
- Authors: Songyang Zhang, Jiale Zhou, Xuming He
- Abstract要約: 少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
- 参考スコア(独自算出の注目度): 40.57508426481838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot video classification aims to learn new video categories with only a
few labeled examples, alleviating the burden of costly annotation in real-world
applications. However, it is particularly challenging to learn a
class-invariant spatial-temporal representation in such a setting. To address
this, we propose a novel matching-based few-shot learning strategy for video
sequences in this work. Our main idea is to introduce an implicit temporal
alignment for a video pair, capable of estimating the similarity between them
in an accurate and robust manner. Moreover, we design an effective context
encoding module to incorporate spatial and feature channel context, resulting
in better modeling of intra-class variations. To train our model, we develop a
multi-task loss for learning video matching, leading to video features with
better generalization. Extensive experimental results on two challenging
benchmarks, show that our method outperforms the prior arts with a sizable
margin on SomethingSomething-V2 and competitive results on Kinetics.
- Abstract(参考訳): ビデオの分類は、いくつかのラベル付き例で新しいビデオカテゴリーを学習することを目的としており、現実世界のアプリケーションにおけるコストのかかるアノテーションの負担を軽減する。
しかし、このような設定でクラス不変な時空間表現を学ぶことは特に困難である。
そこで本稿では,本研究におけるビデオシーケンスのマッチングに基づく複数ショット学習手法を提案する。
私たちの主なアイデアは、ビデオペアの暗黙の時間的アライメントを導入し、それらの間の類似性を正確かつ堅牢な方法で推定することです。
さらに,空間および特徴チャネルのコンテキストを組み込んだ効果的なコンテキスト符号化モジュールを設計し,クラス内変動のモデル化を改良する。
モデルをトレーニングするために,ビデオマッチングを学習するマルチタスクロスを開発し,より一般化したビデオ機能を実現する。
その結果,本手法は,Something-V2とKineeticsの競合的な結果に対して,大差で先行技術よりも優れていることがわかった。
関連論文リスト
- Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。