論文の概要: Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2305.17861v1
- Date: Mon, 29 May 2023 02:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 16:18:51.749534
- Title: Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization
- Title(参考訳): 弱教師付き時間行動定位のための提案型マルチインスタンス学習
- Authors: Huan Ren, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang
- Abstract要約: 微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 98.66318678030491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization aims to localize and recognize
actions in untrimmed videos with only video-level category labels during
training. Without instance-level annotations, most existing methods follow the
Segment-based Multiple Instance Learning (S-MIL) framework, where the
predictions of segments are supervised by the labels of videos. However, the
objective for acquiring segment-level scores during training is not consistent
with the target for acquiring proposal-level scores during testing, leading to
suboptimal results. To deal with this problem, we propose a novel
Proposal-based Multiple Instance Learning (P-MIL) framework that directly
classifies the candidate proposals in both the training and testing stages,
which includes three key designs: 1) a surrounding contrastive feature
extraction module to suppress the discriminative short proposals by considering
the surrounding contrastive information, 2) a proposal completeness evaluation
module to inhibit the low-quality proposals with the guidance of the
completeness pseudo labels, and 3) an instance-level rank consistency loss to
achieve robust detection by leveraging the complementarity of RGB and FLOW
modalities. Extensive experimental results on two challenging benchmarks
including THUMOS14 and ActivityNet demonstrate the superior performance of our
method.
- Abstract(参考訳): 弱い教師付き時間的行動局所化は、訓練中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオにおける行動のローカライズと認識を目的としている。
インスタンスレベルのアノテーションがなければ、既存のほとんどのメソッドは、ビデオのラベルによってセグメントの予測が管理されるSegmentベースのMultiple Instance Learning(S-MIL)フレームワークに従っている。
しかし、トレーニング中にセグメントレベルスコアを取得する目的は、テスト中に提案レベルスコアを取得する目標と一致しないため、準最適結果が得られる。
この問題に対処するため,我々は3つの重要な設計を含むトレーニング段階とテスト段階の両方において,候補の提案を直接分類する,提案ベースの複数インスタンス学習(p-mil)フレームワークを提案する。
1)周囲のコントラスト情報を考慮して識別的短命な提案を抑えるための周囲のコントラスト特徴抽出モジュール
2)完全性偽ラベルの指導による低品質提案を阻害する完全性評価モジュール
3)RGBとFLOWの相補性を利用して、堅牢な検出を実現するインスタンスレベルの整合性損失。
THUMOS14とActivityNetの2つのベンチマークによる大規模な実験結果から,本手法の優れた性能が示された。
関連論文リスト
- What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Leveraging triplet loss for unsupervised action segmentation [0.0]
本稿では,アクションセグメンテーションタスクに適したアクション表現を,単一入力ビデオ自体から学習する,完全に教師なしのフレームワークを提案する。
本手法は,三重項損失が類似度分布に作用する浅層ネットワークに根ざした深部距離学習手法である。
このような状況下では、既存の教師なしアプローチと比較して、学習された行動表現の時間的境界を高い品質で回復することに成功した。
論文 参考訳(メタデータ) (2023-04-13T11:10:16Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z) - Proposal Learning for Semi-Supervised Object Detection [76.83284279733722]
地上の真理ラベルが利用できないため、ラベルのないデータで物体検出器を訓練するのは簡単ではない。
ラベル付きデータとラベルなしデータの両方から提案特徴と予測を学習するための提案学習手法を提案する。
論文 参考訳(メタデータ) (2020-01-15T00:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。