論文の概要: CTRN: Class-Temporal Relational Network for Action Detection
- arxiv url: http://arxiv.org/abs/2110.13473v1
- Date: Tue, 26 Oct 2021 08:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 13:50:40.057085
- Title: CTRN: Class-Temporal Relational Network for Action Detection
- Title(参考訳): CTRN:行動検出のためのクラス時間関係ネットワーク
- Authors: Rui Dai, Srijan Das, Francois Bremond
- Abstract要約: エンドツーエンドネットワーク:CTRN(Class-Temporal Network)を導入する。
CTRNには、Transform Representation Module、Class-Temporal Module、G-classifierの3つの重要なコンポーネントが含まれている。
CTRを3つの高密度ラベル付きデータセット上で評価し、最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 7.616556723260849
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Action detection is an essential and challenging task, especially for densely
labelled datasets of untrimmed videos. There are many real-world challenges in
those datasets, such as composite action, co-occurring action, and high
temporal variation of instance duration. For handling these challenges, we
propose to explore both the class and temporal relations of detected actions.
In this work, we introduce an end-to-end network: Class-Temporal Relational
Network (CTRN). It contains three key components: (1) The Representation
Transform Module filters the class-specific features from the mixed
representations to build graph-structured data. (2) The Class-Temporal Module
models the class and temporal relations in a sequential manner. (3)
G-classifier leverages the privileged knowledge of the snippet-wise
co-occurring action pairs to further improve the co-occurring action detection.
We evaluate CTRN on three challenging densely labelled datasets and achieve
state-of-the-art performance, reflecting the effectiveness and robustness of
our method.
- Abstract(参考訳): アクション検出は、特に未トリミングビデオの密にラベル付けされたデータセットにおいて、必須かつ困難なタスクである。
これらのデータセットには、複合アクション、共起アクション、インスタンス持続時間の時間的変動など、多くの現実世界の課題がある。
これらの課題に対処するため,検出された行動のクラスと時間的関係について検討する。
本研究では,エンドツーエンドネットワークであるCTRN(Class-Temporal Relational Network)を紹介する。
1) Representation Transform Moduleは、混合表現からクラス固有の機能をフィルタリングし、グラフ構造化データを構築する。
2) クラステンポラルモジュールは、クラスと時間的関係を逐次的にモデル化する。
3) g分類器は、スニペットワイズ共起動作ペアの特権知識を活用して、共起動作検出をさらに改善する。
我々は,3つの難解なラベル付きデータセット上でCTRNを評価し,提案手法の有効性とロバスト性を反映して最先端の性能を実現する。
関連論文リスト
- EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration [63.112790050749695]
本稿では,行動情報と意味情報の両方をシームレスに統合する新しい生成推薦フレームワークであるEAGERを紹介する。
EAGERの有効性を4つの公開ベンチマークで検証し,既存手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-20T06:21:56Z) - An Effective-Efficient Approach for Dense Multi-Label Action Detection [23.100602876056165]
i)時間的依存関係と(ii)共起行動関係を同時に学習する必要がある。
近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。
我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。
論文 参考訳(メタデータ) (2024-06-10T11:33:34Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - Learning Dual Dynamic Representations on Time-Sliced User-Item
Interaction Graphs for Sequential Recommendation [62.30552176649873]
シーケンシャルレコメンデーションのための動的表現学習モデル(DRL-SRe)を考案する。
両面から動的に特徴付けるためのユーザ・イテム相互作用をモデル化するため,提案モデルでは,時間スライス毎にグローバルなユーザ・イテム相互作用グラフを構築した。
モデルが微粒な時間情報を捕捉することを可能にするため,連続時間スライス上での補助的時間予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:44:27Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。