論文の概要: Co-Occurrence Matters: Learning Action Relation for Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2303.08463v1
- Date: Wed, 15 Mar 2023 09:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:18:31.837484
- Title: Co-Occurrence Matters: Learning Action Relation for Temporal Action
Localization
- Title(参考訳): 共起問題:時間的行動局在のための学習行動関係
- Authors: Congqi Cao, Yizhe Wang, Yue Lu, Xin Zhang and Yanning Zhang
- Abstract要約: 本稿では,行動間の共起関係を明示的にモデル化する新しい共起関係モジュール(CORM)を提案する。
視覚情報に加えて、クラスラベルのセマンティック埋め込みを利用して、共起関係をモデル化する。
提案手法は,高いマルチラベル関係モデリング能力を実現する。
- 参考スコア(独自算出の注目度): 41.44022912961265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization (TAL) is a prevailing task due to its great
application potential. Existing works in this field mainly suffer from two
weaknesses: (1) They often neglect the multi-label case and only focus on
temporal modeling. (2) They ignore the semantic information in class labels and
only use the visual information. To solve these problems, we propose a novel
Co-Occurrence Relation Module (CORM) that explicitly models the co-occurrence
relationship between actions. Besides the visual information, it further
utilizes the semantic embeddings of class labels to model the co-occurrence
relationship. The CORM works in a plug-and-play manner and can be easily
incorporated with the existing sequence models. By considering both visual and
semantic co-occurrence, our method achieves high multi-label relationship
modeling capacity. Meanwhile, existing datasets in TAL always focus on
low-semantic atomic actions. Thus we construct a challenging multi-label
dataset UCF-Crime-TAL that focuses on high-semantic actions by annotating the
UCF-Crime dataset at frame level and considering the semantic overlap of
different events. Extensive experiments on two commonly used TAL datasets,
\textit{i.e.}, MultiTHUMOS and TSU, and our newly proposed UCF-Crime-TAL
demenstrate the effectiveness of the proposed CORM, which achieves
state-of-the-art performance on these datasets.
- Abstract(参考訳): 時間的行動ローカライゼーション(TAL)は、その大きな応用可能性のために一般的な課題である。
この分野での既存の作品は、主に2つの弱点に苦しめられている: (1) 彼らはしばしばマルチラベルのケースを無視し、時間的モデリングにのみ焦点を合わせている。
2) クラスラベルのセマンティック情報を無視し,視覚情報のみを使用する。
これらの問題を解決するために、アクション間の共起関係を明示的にモデル化する新しい共起関係モジュール(CORM)を提案する。
視覚的情報に加えて、クラスラベルの意味的埋め込みを利用して共起関係をモデル化する。
CORMはプラグアンドプレイ方式で動作し、既存のシーケンスモデルに簡単に組み込むことができる。
視覚的・意味的共起性を考慮した多ラベル関係モデリング能力を実現する。
一方、TALの既存のデータセットは、常に低セマンティックなアトミックアクションに焦点を当てている。
そこで我々は,UCF-Crimeデータセットをフレームレベルでアノテートし,異なるイベントのセマンティックオーバーラップを考慮し,高セマンティックなアクションに焦点を当てた,挑戦的なマルチラベルデータセットUCF-Crime-TALを構築した。
一般的なtalデータセットである \textit{i.e.}, multithumos,tsu,および新たに提案されたutf-crime-talの広範な実験により,提案するcormの有効性が検証された。
関連論文リスト
- Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Dynamically Updating Event Representations for Temporal Relation
Classification with Multi-category Learning [35.27714529976667]
時間的関係分類は、2つの言及間の時間的リンク(Tlink)の関係を特定するためのペアワイズタスクである。
本稿では,複数のTlinkカテゴリにまたがる動的イベント表現を管理するイベント中心モデルを提案する。
提案手法は,英語と日本語の両方のデータに基づいて,最先端のモデルと2つの転移学習ベースラインより優れている。
論文 参考訳(メタデータ) (2023-10-31T07:41:24Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference,
Temporal, Causal, and Subevent Relation Extraction [78.61546292830081]
アノテーションを改良した大規模EREデータセットMAVEN-EREを構築した。
103,193個のイベント・コア・チェイン、1,216,217個の時間関係、57,992個の因果関係、15,841個の部分関係を含む。
実験の結果,MAVEN-ERE上でのEREは極めて困難であり,共同学習との相互関係を考慮すれば性能が向上することが示された。
論文 参考訳(メタデータ) (2022-11-14T13:34:49Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。