論文の概要: Boosting Weakly-Supervised Temporal Action Localization with Text
Information
- arxiv url: http://arxiv.org/abs/2305.00607v1
- Date: Mon, 1 May 2023 00:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:18:23.575203
- Title: Boosting Weakly-Supervised Temporal Action Localization with Text
Information
- Title(参考訳): テキスト情報による時間的行動局所化の強化
- Authors: Guozhang Li, De Cheng, Xinpeng Ding, Nannan Wang, Xiaoyu Wang, Xinbo
Gao
- Abstract要約: 本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
- 参考スコア(独自算出の注目度): 94.48602948837664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the lack of temporal annotation, current Weakly-supervised Temporal
Action Localization (WTAL) methods are generally stuck into over-complete or
incomplete localization. In this paper, we aim to leverage the text information
to boost WTAL from two aspects, i.e., (a) the discriminative objective to
enlarge the inter-class difference, thus reducing the over-complete; (b) the
generative objective to enhance the intra-class integrity, thus finding more
complete temporal boundaries. For the discriminative objective, we propose a
Text-Segment Mining (TSM) mechanism, which constructs a text description based
on the action class label, and regards the text as the query to mine all
class-related segments. Without the temporal annotation of actions, TSM
compares the text query with the entire videos across the dataset to mine the
best matching segments while ignoring irrelevant ones. Due to the shared
sub-actions in different categories of videos, merely applying TSM is too
strict to neglect the semantic-related segments, which results in incomplete
localization. We further introduce a generative objective named Video-text
Language Completion (VLC), which focuses on all semantic-related segments from
videos to complete the text sentence. We achieve the state-of-the-art
performance on THUMOS14 and ActivityNet1.3. Surprisingly, we also find our
proposed method can be seamlessly applied to existing methods, and improve
their performances with a clear margin. The code is available at
https://github.com/lgzlIlIlI/Boosting-WTAL.
- Abstract(参考訳): 時間的アノテーションが欠如しているため、現在の弱制御時間的行動局所化(WTAL)法は概して過度に完全あるいは不完全な局所化に留まっている。
本稿では、テキスト情報を活用してWTALを2つの側面から強化することを目的とする。
a) クラス間差を拡大する差別的目的により、過剰な完全性を減少させる。
b) クラス内整合性を高めるための生成的目的により, 時間的境界がより完全になる。
識別的目的のために,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案し,そのテキストをすべてのクラス関連セグメントをマイニングするクエリとみなす。
アクションの時間的アノテーションがなければ、TSMはテキストクエリをデータセット全体のビデオと比較し、最適なマッチングセグメントをマイニングしながら、無関係なセグメントを無視します。
ビデオの異なるカテゴリにおける共有サブアクションのため、単にTSMを適用するだけで意味的関連セグメントを無視できないため、不完全なローカライゼーションが生じる。
さらに,ビデオから意味関連セグメントを抽出してテキスト文を補完する,vlc(video-text language completion)という生成目的についても紹介する。
我々はTHUMOS14とActivityNet1.3の最先端性能を実現する。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
コードはhttps://github.com/lgzlIlIlI/Boosting-WTALで公開されている。
関連論文リスト
- Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。
我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-27T20:02:12Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。