論文の概要: Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2107.12589v1
- Date: Tue, 27 Jul 2021 04:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:42:23.071129
- Title: Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization
- Title(参考訳): 弱教師付き時間行動定位のためのクロスモーダルコンセンサスネットワーク
- Authors: Fa-Ting Hong, Jia-Chang Feng, Dan Xu, Ying Shan, Wei-Shi Zheng
- Abstract要約: 時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
- 参考スコア(独自算出の注目度): 74.34699679568818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised temporal action localization (WS-TAL) is a challenging task
that aims to localize action instances in the given video with video-level
categorical supervision. Both appearance and motion features are used in
previous works, while they do not utilize them in a proper way but apply simple
concatenation or score-level fusion. In this work, we argue that the features
extracted from the pretrained extractor, e.g., I3D, are not the
WS-TALtask-specific features, thus the feature re-calibration is needed for
reducing the task-irrelevant information redundancy. Therefore, we propose a
cross-modal consensus network (CO2-Net) to tackle this problem. In CO2-Net, we
mainly introduce two identical proposed cross-modal consensus modules (CCM)
that design a cross-modal attention mechanism to filter out the task-irrelevant
information redundancy using the global information from the main modality and
the cross-modal local information of the auxiliary modality. Moreover, we treat
the attention weights derived from each CCMas the pseudo targets of the
attention weights derived from another CCM to maintain the consistency between
the predictions derived from two CCMs, forming a mutual learning manner.
Finally, we conduct extensive experiments on two common used temporal action
localization datasets, THUMOS14 and ActivityNet1.2, to verify our method and
achieve the state-of-the-art results. The experimental results show that our
proposed cross-modal consensus module can produce more representative features
for temporal action localization.
- Abstract(参考訳): 時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
外観と動作の特徴はどちらも以前の作品で使われているが、適切な方法では使用せず、単純な結合やスコアレベルの融合を適用している。
本稿では,事前訓練した抽出器から抽出した特徴(例えばI3D)がWS-TALtask特有の特徴ではないことを論じる。
そこで我々は,この問題に対処するクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
CO2-Netでは,主モーダルからのグローバル情報と補助モーダルのクロスモーダルローカル情報を用いてタスク関連情報冗長性をフィルタリングする,クロスモーダルアテンション機構を設計する2つの同一のクロスモーダルコンセンサスモジュール(CCM)を主に導入する。
さらに,各ccmasから導出される注意重みを,別のccmから導かれる注意重みの疑似目標として扱い,2つのccmから導かれる予測間の一貫性を維持し,相互学習方式を形成する。
最後に,本手法を検証し,最新の結果を得るため,一般的な2つの時間的行動定位データセットであるthums14とactivitynet1.2について広範な実験を行った。
実験の結果,提案するクロスモーダルコンセンサスモジュールは,時間的行動の局所化に対して,より代表的な特徴を生み出すことができた。
関連論文リスト
- Interactive incremental learning of generalizable skills with local trajectory modulation [14.416251854298409]
軌道分布の局所的および大域的変調を同時に活用するインタラクティブな模倣学習フレームワークを提案する。
提案手法では, インクリメンタルかつインタラクティブに, 1) モデル精度の向上, 2) 実行中のタスクに新しいオブジェクトの追加,3) デモが提供されていない領域にスキルを拡大する。
論文 参考訳(メタデータ) (2024-09-09T14:22:19Z) - S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching
for Autonomous Driving [40.305452898732774]
S$3$M-Netはセマンティックセグメンテーションとステレオマッチングを同時に行うために開発された新しい共同学習フレームワークである。
S$3$M-Netは、両方のタスク間でRGBイメージから抽出された特徴を共有し、全体的なシーン理解能力が改善された。
論文 参考訳(メタデータ) (2024-01-21T06:47:33Z) - Towards Lightweight Cross-domain Sequential Recommendation via External
Attention-enhanced Graph Convolution Network [7.1102362215550725]
クロスドメインシークエンシャルレコメンデーション(CSR)は、複数のドメインからのインタラクションをモデル化することで、重複したユーザの振る舞いパターンの進化を描いている。
上記の課題,すなわちLEA-GCNを解決するために,軽量な外部注意強化GCNベースのフレームワークを導入する。
フレームワークの構造をさらに緩和し、ユーザ固有のシーケンシャルパターンを集約するために、新しい二重チャネル外部注意(EA)コンポーネントを考案する。
論文 参考訳(メタデータ) (2023-02-07T03:06:29Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - CTRN: Class-Temporal Relational Network for Action Detection [7.616556723260849]
エンドツーエンドネットワーク:CTRN(Class-Temporal Network)を導入する。
CTRNには、Transform Representation Module、Class-Temporal Module、G-classifierの3つの重要なコンポーネントが含まれている。
CTRを3つの高密度ラベル付きデータセット上で評価し、最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-26T08:15:47Z) - Learning to Combine the Modalities of Language and Video for Temporal
Moment Localization [4.203274985072923]
時間的モーメントローカライゼーションは、クエリによって指定されたモーメントにマッチする最適なビデオセグメントを検索することを目的としている。
本稿では,時間的モーメントを局所化する認知過程を模倣して,新たな繰り返し単位であるクロスモーダル長短期記憶(CM-LSTM)を導入する。
また、入出力クエリーにより、入出力された映像特徴と未入出力映像特徴の両方に対する2ストリームの注意機構を考案し、必要な視覚情報が無視されるのを防ぐ。
論文 参考訳(メタデータ) (2021-09-07T08:25:45Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。