Fugu-MT 論文翻訳(概要): Temporal Transductive Inference for Few-Shot Video Object Segmentation

論文の概要: Temporal Transductive Inference for Few-Shot Video Object Segmentation

arxiv url: http://arxiv.org/abs/2203.14308v1
Date: Sun, 27 Mar 2022 14:08:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 14:57:33.310532
Title: Temporal Transductive Inference for Few-Shot Video Object Segmentation
Title（参考訳）: Few-Shot Video Object Segmentationのための時間的トランスダクティブ推論
Authors: Mennatullah Siam, Konstantinos G. Derpanis, Richard P. Wildes
Abstract要約: Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
参考スコア（独自算出の注目度）: 27.140141181513425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot video object segmentation (FS-VOS) aims at segmenting video frames using a few labelled examples of classes not seen during initial training. In this paper, we present a simple but effective temporal transductive inference (TTI) approach that leverages temporal consistency in the unlabelled video frames during few-shot inference. Key to our approach is the use of both global and local temporal constraints. The objective of the global constraint is to learn consistent linear classifiers for novel classes across the image sequence, whereas the local constraint enforces the proportion of foreground/background regions in each frame to be coherent across a local temporal window. These constraints act as spatiotemporal regularizers during the transductive inference to increase temporal coherence and reduce overfitting on the few-shot support set. Empirically, our model outperforms state-of-the-art meta-learning approaches in terms of mean intersection over union on YouTube-VIS by 2.8%. In addition, we introduce improved benchmarks that are exhaustively labelled (i.e. all object occurrences are labelled, unlike the currently available), and present a more realistic evaluation paradigm that targets data distribution shift between training and testing sets. Our empirical results and in-depth analysis confirm the added benefits of the proposed spatiotemporal regularizers to improve temporal coherence and overcome certain overfitting scenarios.
Abstract（参考訳）: Few-shot Video Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。本稿では,ノンラベリングビデオフレームの時間的一貫性を利用した,単純かつ効果的な時間的トランスダクティブ推論(tti)手法を提案する。私たちのアプローチの鍵は、グローバルとローカルの両方の時間制約を使うことです。大域的制約の目的は、画像シーケンス全体にわたって新しいクラスの一貫した線形分類器を学習することであり、一方、局所的制約は、各フレームにおける前景/背景領域の比率を局所的時間的ウィンドウ全体にわたって整合させる。これらの制約は、時間的コヒーレンスを高め、少数ショットのサポートセットのオーバーフィッティングを減らすために、トランスダクティブ推論中に時空間正規化器として機能する。経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。さらに,改良されたベンチマークを徹底的にラベル付けし,トレーニングとテストセット間のデータ分散シフトを目標とした,より現実的な評価パラダイムを提案する。実験結果と詳細な分析により,時間的コヒーレンスの改善とオーバーフィットシナリオの克服を目的として提案する時空間正規化器の付加効果が確認できた。

関連論文リスト

Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文参考訳（メタデータ） (2025-06-10T06:40:43Z)
Generative Regression Based Watch Time Prediction for Short-Video Recommendation [36.95095097454143]
短いビデオレコメンデーションシステムでは、時計の時間予測が重要なタスクとして現れている。最近の研究は、連続時計時間推定を正規回帰タスクに変換することによって、これらの問題に対処しようとしている。本稿では,WTPをシーケンス生成タスクとして再構成する新しい生成回帰(GR)フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-28T16:48:55Z)
Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。 5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文参考訳（メタデータ） (2024-08-22T15:13:27Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文参考訳（メタデータ） (2022-06-26T16:45:56Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文参考訳（メタデータ） (2021-06-14T10:33:47Z)
Temporal Context Aggregation Network for Temporal Action Proposal Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。 TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文参考訳（メタデータ） (2021-03-24T12:34:49Z)
Bottom-Up Temporal Action Localization with Mutual Regularization [107.39785866001868]
TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。学習手順を相互に規則化するための2つの規則化用語を導入する。実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
論文参考訳（メタデータ） (2020-02-18T03:59:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。