論文の概要: Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track
- arxiv url: http://arxiv.org/abs/2106.10829v1
- Date: Mon, 21 Jun 2021 03:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 02:47:11.419122
- Title: Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track
- Title(参考訳): Two-Stream Consensus Network: HACS Challenge 2021 Weakly Supervised Learning Track
- Authors: Yuanhao Zhai, Le Wang, David Doermann, Junsong Yuan
- Abstract要約: 弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
- 参考スコア(独自算出の注目度): 78.64815984927425
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This technical report presents our solution to the HACS Temporal Action
Localization Challenge 2021, Weakly-Supervised Learning Track. The goal of
weakly-supervised temporal action localization is to temporally locate and
classify action of interest in untrimmed videos given only video-level labels.
We adopt the two-stream consensus network (TSCN) as the main framework in this
challenge. The TSCN consists of a two-stream base model training procedure and
a pseudo ground truth learning procedure. The base model training encourages
the model to predict reliable predictions based on single modality (i.e., RGB
or optical flow), based on the fusion of which a pseudo ground truth is
generated and in turn used as supervision to train the base models. On the HACS
v1.1.1 dataset, without fine-tuning the feature-extraction I3D models, our
method achieves 22.20% on the validation set and 21.68% on the testing set in
terms of average mAP. Our solution ranked the 2rd in this challenge, and we
hope our method can serve as a baseline for future academic research.
- Abstract(参考訳): 本報告では,弱教師付き学習トラックであるhacs temporal action localization challenge 2021の解法を提案する。
弱い監督による時間的行動ローカライゼーションの目標は、ビデオレベルのラベルのみを与えられた未編集ビデオに対する関心の行動の時間的特定と分類である。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
TSCNは、2ストリームベースモデルのトレーニング手順と擬似基底真理学習手順で構成される。
ベースモデルトレーニングは、擬似基底真理が生成される融合に基づいて、単一のモダリティ(すなわち、RGBまたは光フロー)に基づいて信頼できる予測を予測し、ベースモデルをトレーニングするための監督として使用することを奨励する。
HACS v1.1.1データセットでは、特徴抽出I3Dモデルを微調整することなく、検証セットで22.20%、平均mAPで21.68%を達成する。
私たちのソリューションはこの課題で2位にランクインし、この方法が将来の学術研究のベースラインとなることを願っています。
関連論文リスト
- TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising
Diffusion Models [53.67562579184457]
本稿では,不確実性や複雑な依存関係のモデル化が困難であることから,確率的STG予測に焦点をあてる。
本稿では,一般的な拡散モデルをSTGに一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰フレームワークを提案する。
提案手法は,本質的時間学習能力STNNと拡散モデルの不確実性測定を組み合わせたものである。
論文 参考訳(メタデータ) (2023-01-31T13:42:36Z) - Semi-supervised Training for Knowledge Base Graph Self-attention
Networks on Link Prediction [20.64973530280006]
本稿では,隣接ノードの情報集約係数(自己アテンション)について検討し,GAT構造の自己アテンション機構を再設計する。
人間の思考習慣に触発されて,事前学習モデルを用いた半教師付き自己学習法を考案した。
実験結果から,提案する自己注意機構と半教師付き自己学習法はリンク予測タスクの性能を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2022-09-03T07:27:28Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z) - International Workshop on Continual Semi-Supervised Learning:
Introduction, Benchmarks and Baselines [20.852277473776617]
本研究の目的は,CSSL(Continuous semi-supervised learning)パラダイムを定式化することである。
本稿では、2つの重要なコンピュータビジョンタスクでCSSLを評価するために特別に設計された2つの新しいベンチマークを紹介する。
本稿では,これらのベンチマーク上に構築されたCAR(Continuous Activity Recognition)とCCC(Continuous Crowd Counting)の課題について述べる。
論文 参考訳(メタデータ) (2021-10-27T17:34:40Z) - 2nd Place Solution for SODA10M Challenge 2021 -- Continual Detection
Track [35.06282647572304]
ResNet50-FPNをベースラインとして採用し、最終的な提案モデルのいくつかの改善を試みる。
タスク固有のリプレイ方式,学習率スケジューリング,モデルキャリブレーション,原画像スケールの使用により,画像中の大小オブジェクトの性能向上が期待できる。
論文 参考訳(メタデータ) (2021-10-25T15:58:19Z) - PGTRNet: Two-phase Weakly Supervised Object Detection with Pseudo Ground
Truth Refining [10.262660606897974]
画像レベルのアノテーションだけで検知器を訓練することを目的とした弱い監視対象検出(WSOD)が注目されている。
現在の最先端のアプローチは、主に2段階のトレーニング戦略に従い、完全な教師付き検出器(FSD)と純粋なWSODモデルを統合する。
2相WSODアプローチの性能を阻害する主な問題は2つある。すなわち、不十分な学習問題と、WSODモデルによって生成されたFSDと擬似基底真理との厳密な依存である。
本稿では, 単純かつ効果的な手法である擬似基底真理改善ネットワーク(PGTRNet)を提案する。
論文 参考訳(メタデータ) (2021-08-25T19:20:49Z) - Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。
そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。
提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-06-07T08:38:41Z) - An Empirical Study of Vehicle Re-Identification on the AI City Challenge [19.13038665501964]
Track2は、現実世界のデータと合成データの両方を扱う車両再識別(ReID)タスクである。
主に、この課題におけるトレーニングデータ、教師なしドメイン適応(UDA)トレーニング、後処理、モデルアンサンブルの4点に注目します。
以上の手法により, 最終的に0.7445mAPのスコアが得られた。
論文 参考訳(メタデータ) (2021-05-20T12:20:52Z) - Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文 参考訳(メタデータ) (2020-10-22T10:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。