論文の概要: Learning a Weakly-Supervised Video Actor-Action Segmentation Model with
a Wise Selection
- arxiv url: http://arxiv.org/abs/2003.13141v1
- Date: Sun, 29 Mar 2020 21:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 14:00:19.930433
- Title: Learning a Weakly-Supervised Video Actor-Action Segmentation Model with
a Wise Selection
- Title(参考訳): ワイズ選択による弱補正映像アクター・アクションセグメンテーションモデルの学習
- Authors: Jie Chen, Zhiheng Li, Jiebo Luo, and Chenliang Xu
- Abstract要約: 弱教師付きビデオアクターアクションセグメンテーション(VAAS)について検討する。
トレーニングサンプルのワイズ選択とモデル評価基準(WS2)を併用した汎用弱弱化フレームワークを提案する。
WS2は、弱い教師付きVOSとVAASタスクの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 97.98805233539633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address weakly-supervised video actor-action segmentation (VAAS), which
extends general video object segmentation (VOS) to additionally consider action
labels of the actors. The most successful methods on VOS synthesize a pool of
pseudo-annotations (PAs) and then refine them iteratively. However, they face
challenges as to how to select from a massive amount of PAs high-quality ones,
how to set an appropriate stop condition for weakly-supervised training, and
how to initialize PAs pertaining to VAAS. To overcome these challenges, we
propose a general Weakly-Supervised framework with a Wise Selection of training
samples and model evaluation criterion (WS^2). Instead of blindly trusting
quality-inconsistent PAs, WS^2 employs a learning-based selection to select
effective PAs and a novel region integrity criterion as a stopping condition
for weakly-supervised training. In addition, a 3D-Conv GCAM is devised to adapt
to the VAAS task. Extensive experiments show that WS^2 achieves
state-of-the-art performance on both weakly-supervised VOS and VAAS tasks and
is on par with the best fully-supervised method on VAAS.
- Abstract(参考訳): 本稿では,一般ビデオオブジェクトセグメンテーション(vos)を拡張し,アクタのアクションラベルを付加的に検討する,弱い教師付きビデオアクタアクションセグメンテーション(vaas)について述べる。
VOSの最も成功した方法は擬似アノテーションのプールを合成し、それを反復的に精製する。
しかし、彼らは、大量のPAs高品質のものをどのように選択するか、弱い教師付きトレーニングに適切な停止条件を設定する方法、VAASに関連するPAを初期化する方法について、課題に直面している。
これらの課題を克服するために、トレーニングサンプルのワイズ選択とモデル評価基準(WS^2)を用いた全般的な弱弱弱化フレームワークを提案する。
品質不整合性PAを盲目的に信頼する代わりに、WS^2は学習ベースの選択を用いて効果的なPAを選択する。
さらに、VAASタスクに対応するために3D-Conv GCAMが考案された。
大規模な実験の結果,WS^2 は VOS タスクとVAAS タスクの両方において最先端の性能を達成し,VAAS 上で最高の完全教師付き手法と同等であることがわかった。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - W2N:Switching From Weak Supervision to Noisy Supervision for Object
Detection [64.10643170523414]
弱い監督からうるさい監督(W2N)に切り替える新しいパラダイムを持つ新しいWSODフレームワークを提案する。
ローカライズ適応モジュールでは、元の擬似接地構造における識別部分の割合を減らすために正規化損失を提案する。
我々のW2Nは、既存の純粋なWSODメソッドや転送学習メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-07-25T12:13:48Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。