論文の概要: Less than Few: Self-Shot Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2204.08874v1
- Date: Tue, 19 Apr 2022 13:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:23:22.596063
- Title: Less than Few: Self-Shot Video Instance Segmentation
- Title(参考訳): 少数に満たない:セルフショットビデオインスタンスのセグメンテーション
- Authors: Pengwan Yang, Yuki M. Asano, Pascal Mettes, and Cees G. M. Snoek
- Abstract要約: 質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
- 参考スコア(独自算出の注目度): 50.637278655763616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to bypass the need for labelled examples in
few-shot video understanding at run time. While proven effective, in many
practical video settings even labelling a few examples appears unrealistic.
This is especially true as the level of details in spatio-temporal video
understanding and with it, the complexity of annotations continues to increase.
Rather than performing few-shot learning with a human oracle to provide a few
densely labelled support videos, we propose to automatically learn to find
appropriate support videos given a query. We call this self-shot learning and
we outline a simple self-supervised learning method to generate an embedding
space well-suited for unsupervised retrieval of relevant samples. To showcase
this novel setting, we tackle, for the first time, video instance segmentation
in a self-shot (and few-shot) setting, where the goal is to segment instances
at the pixel-level across the spatial and temporal domains. We provide strong
baseline performances that utilize a novel transformer-based model and show
that self-shot learning can even surpass few-shot and can be positively
combined for further performance gains. Experiments on new benchmarks show that
our approach achieves strong performance, is competitive to oracle support in
some settings, scales to large unlabelled video collections, and can be
combined in a semi-supervised setting.
- Abstract(参考訳): 本稿の目標は,実行時のビデオ理解において,ラベル付きサンプルの必要性を回避することにある。
実効性は証明されているものの、いくつかの例をラベル付けする多くの実用的なビデオ設定では非現実的なように見える。
特に、時空間的ビデオ理解における詳細レベルが大きくなるにつれて、アノテーションの複雑さは増大し続けています。
人間の託宣で数ショットの学習を行ない、密にラベル付けされたサポートビデオを提供する代わりに、クエリが与えられた適切なサポートビデオを自動的に見つけることを提案する。
我々はこれを自撮り学習と呼び、関連サンプルの教師なし検索に適した埋め込み空間を生成するための簡単な自己教師付き学習手法を概説する。
この斬新な設定を示すために、私たちは初めて、ビデオインスタンスのセグメンテーションをセルフショット(および数ショット)の設定に取り組み、そのゴールは、空間的および時間的領域にわたってピクセルレベルのインスタンスをセグメンテーションすることである。
我々は,新しいトランスフォーマーモデルを用いた強力なベースライン性能を提供し,自己ショット学習が数ショットを超え,さらなるパフォーマンス向上のために肯定的に組み合わせることができることを示す。
新しいベンチマーク実験により,本手法は高い性能を実現し,一部の設定ではオラクルサポートと競合し,大規模なビデオコレクションにスケールし,半教師付き設定で組み合わせることができることがわかった。
関連論文リスト
- TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。