論文の概要: Temporal Transductive Inference for Few-Shot Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2203.14308v1
- Date: Sun, 27 Mar 2022 14:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:57:33.310532
- Title: Temporal Transductive Inference for Few-Shot Video Object Segmentation
- Title(参考訳): Few-Shot Video Object Segmentationのための時間的トランスダクティブ推論
- Authors: Mennatullah Siam, Konstantinos G. Derpanis, Richard P. Wildes
- Abstract要約: Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
- 参考スコア(独自算出の注目度): 27.140141181513425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot video object segmentation (FS-VOS) aims at segmenting video frames
using a few labelled examples of classes not seen during initial training. In
this paper, we present a simple but effective temporal transductive inference
(TTI) approach that leverages temporal consistency in the unlabelled video
frames during few-shot inference. Key to our approach is the use of both global
and local temporal constraints. The objective of the global constraint is to
learn consistent linear classifiers for novel classes across the image
sequence, whereas the local constraint enforces the proportion of
foreground/background regions in each frame to be coherent across a local
temporal window. These constraints act as spatiotemporal regularizers during
the transductive inference to increase temporal coherence and reduce
overfitting on the few-shot support set. Empirically, our model outperforms
state-of-the-art meta-learning approaches in terms of mean intersection over
union on YouTube-VIS by 2.8%. In addition, we introduce improved benchmarks
that are exhaustively labelled (i.e. all object occurrences are labelled,
unlike the currently available), and present a more realistic evaluation
paradigm that targets data distribution shift between training and testing
sets. Our empirical results and in-depth analysis confirm the added benefits of
the proposed spatiotemporal regularizers to improve temporal coherence and
overcome certain overfitting scenarios.
- Abstract(参考訳): Few-shot Video Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
本稿では,ノンラベリングビデオフレームの時間的一貫性を利用した,単純かつ効果的な時間的トランスダクティブ推論(tti)手法を提案する。
私たちのアプローチの鍵は、グローバルとローカルの両方の時間制約を使うことです。
大域的制約の目的は、画像シーケンス全体にわたって新しいクラスの一貫した線形分類器を学習することであり、一方、局所的制約は、各フレームにおける前景/背景領域の比率を局所的時間的ウィンドウ全体にわたって整合させる。
これらの制約は、時間的コヒーレンスを高め、少数ショットのサポートセットのオーバーフィッティングを減らすために、トランスダクティブ推論中に時空間正規化器として機能する。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
さらに,改良されたベンチマークを徹底的にラベル付けし,トレーニングとテストセット間のデータ分散シフトを目標とした,より現実的な評価パラダイムを提案する。
実験結果と詳細な分析により,時間的コヒーレンスの改善とオーバーフィットシナリオの克服を目的として提案する時空間正規化器の付加効果が確認できた。
関連論文リスト
- Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。
シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文 参考訳(メタデータ) (2024-08-22T15:13:27Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Bottom-Up Temporal Action Localization with Mutual Regularization [107.39785866001868]
TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。
学習手順を相互に規則化するための2つの規則化用語を導入する。
実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
論文 参考訳(メタデータ) (2020-02-18T03:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。