論文の概要: Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2408.05955v1
- Date: Mon, 12 Aug 2024 07:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:35:18.958311
- Title: Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization
- Title(参考訳): 弱教師付き時間的行動局所化のための確率的視覚言語表現法
- Authors: Geuntaek Lim, Hyunwoo Kim, Joonsoo Kim, Yukyung Choi,
- Abstract要約: WTAL(Weakly supervised temporal action Localization)は、ビデオレベルのアノテーションのみを使用して、未トリミングビデオ中のアクションインスタンスを検出することを目的としている。
本稿では,人間の行動知識と意味知識を確率論的埋め込み空間に整合させる新しい枠組みを提案する。
本手法は,従来の最先端手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 3.996503381756227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised temporal action localization (WTAL) aims to detect action instances in untrimmed videos using only video-level annotations. Since many existing works optimize WTAL models based on action classification labels, they encounter the task discrepancy problem (i.e., localization-by-classification). To tackle this issue, recent studies have attempted to utilize action category names as auxiliary semantic knowledge through vision-language pre-training (VLP). However, there are still areas where existing research falls short. Previous approaches primarily focused on leveraging textual information from language models but overlooked the alignment of dynamic human action and VLP knowledge in a joint space. Furthermore, the deterministic representation employed in previous studies struggles to capture fine-grained human motions. To address these problems, we propose a novel framework that aligns human action knowledge and VLP knowledge in a probabilistic embedding space. Moreover, we propose intra- and inter-distribution contrastive learning to enhance the probabilistic embedding space based on statistical similarities. Extensive experiments and ablation studies reveal that our method significantly outperforms all previous state-of-the-art methods. Code is available at https://github.com/sejong-rcv/PVLR.
- Abstract(参考訳): WTAL(Weakly supervised temporal action Localization)は、ビデオレベルのアノテーションのみを使用して、未トリミングビデオ中のアクションインスタンスを検出することを目的としている。
多くの既存の研究は、アクション分類ラベルに基づいてWTALモデルを最適化しているため、タスクの不一致問題(すなわち、ローカライゼーション・バイ・クラス化)に遭遇する。
この問題に対処するために、近年の研究では、視覚言語事前学習(VLP)を通して、アクションカテゴリ名を補助的意味知識として活用しようと試みている。
しかし、現存する研究が不足している地域もある。
それまでのアプローチは、主に言語モデルからのテキスト情報を活用することに焦点を当てていたが、動的人間の行動とVLPの知識の協調性を見落としていた。
さらに、以前の研究で用いられた決定論的表現は、きめ細かい人間の動きを捉えるのに苦労している。
これらの問題に対処するため,確率的埋め込み空間において人間の行動知識とVLP知識を協調させる新しい枠組みを提案する。
さらに,統計的類似性に基づく確率的埋め込み空間を強化するために,分布内および分布間比較学習を提案する。
大規模な実験とアブレーション研究により,本手法は過去の最先端手法よりも著しく優れていたことが明らかとなった。
コードはhttps://github.com/sejong-rcv/PVLRで入手できる。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。