Fugu-MT 論文翻訳(概要): Two-Stream Consensus Network: Submission to HACS Challenge 2021 Weakly-Supervised Learning Track

論文の概要: Two-Stream Consensus Network: Submission to HACS Challenge 2021 Weakly-Supervised Learning Track

arxiv url: http://arxiv.org/abs/2106.10829v1
Date: Mon, 21 Jun 2021 03:36:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-23 02:47:11.419122
Title: Two-Stream Consensus Network: Submission to HACS Challenge 2021 Weakly-Supervised Learning Track
Title（参考訳）: Two-Stream Consensus Network: HACS Challenge 2021 Weakly Supervised Learning Track
Authors: Yuanhao Zhai, Le Wang, David Doermann, Junsong Yuan
Abstract要約: 弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
参考スコア（独自算出の注目度）: 78.64815984927425
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This technical report presents our solution to the HACS Temporal Action Localization Challenge 2021, Weakly-Supervised Learning Track. The goal of weakly-supervised temporal action localization is to temporally locate and classify action of interest in untrimmed videos given only video-level labels. We adopt the two-stream consensus network (TSCN) as the main framework in this challenge. The TSCN consists of a two-stream base model training procedure and a pseudo ground truth learning procedure. The base model training encourages the model to predict reliable predictions based on single modality (i.e., RGB or optical flow), based on the fusion of which a pseudo ground truth is generated and in turn used as supervision to train the base models. On the HACS v1.1.1 dataset, without fine-tuning the feature-extraction I3D models, our method achieves 22.20% on the validation set and 21.68% on the testing set in terms of average mAP. Our solution ranked the 2rd in this challenge, and we hope our method can serve as a baseline for future academic research.
Abstract（参考訳）: 本報告では,弱教師付き学習トラックであるhacs temporal action localization challenge 2021の解法を提案する。弱い監督による時間的行動ローカライゼーションの目標は、ビデオレベルのラベルのみを与えられた未編集ビデオに対する関心の行動の時間的特定と分類である。この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。 TSCNは、2ストリームベースモデルのトレーニング手順と擬似基底真理学習手順で構成される。ベースモデルトレーニングは、擬似基底真理が生成される融合に基づいて、単一のモダリティ(すなわち、RGBまたは光フロー)に基づいて信頼できる予測を予測し、ベースモデルをトレーニングするための監督として使用することを奨励する。 HACS v1.1.1データセットでは、特徴抽出I3Dモデルを微調整することなく、検証セットで22.20%、平均mAPで21.68%を達成する。私たちのソリューションはこの課題で2位にランクインし、この方法が将来の学術研究のベースラインとなることを願っています。

関連論文リスト

Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文参考訳（メタデータ） (2025-06-23T18:17:39Z)
Tuning Vision Foundation Model via Test-Time Prompt-Guided Training for VFSS Segmentations [1.8142185304787555]
本稿では,全アノテーションを必要とせず,下流データセット上での基礎モデルの性能を向上させる新しいテストタイムトレーニングパラダイムを提案する。具体的には、テスト時間半自己指導型トレーニングタスクを誘導するために、簡単なポイントプロンプトを用いる。このアプローチは、アノテーションの取得が時間集約的かつ高価である医療画像分野の課題に、直接取り組む。
論文参考訳（メタデータ） (2025-01-30T16:48:02Z)
Joint Spatial-Temporal Modeling and Contrastive Learning for Self-supervised Heart Rate Measurement [28.370473108391426]
本稿では,我々のチームであるHFUT-VUT(HFUT-VUT)による,自己監督型心拍数測定トラック1のソリューションについて紹介する。目標は、ラベルなしの顔ビデオを用いた自己監督型心拍数生理学(HR)を開発することである。提案手法は,テストデータセットのRMSEスコア8.85277を達成し,この課題のトラック1のbftext2位を確保した。
論文参考訳（メタデータ） (2024-06-07T13:53:02Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-08T11:54:49Z)
DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising Diffusion Models [53.67562579184457]
本稿では,不確実性や複雑な依存関係のモデル化が困難であることから,確率的STG予測に焦点をあてる。本稿では,一般的な拡散モデルをSTGに一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰フレームワークを提案する。提案手法は,本質的時間学習能力STNNと拡散モデルの不確実性測定を組み合わせたものである。
論文参考訳（メタデータ） (2023-01-31T13:42:36Z)
Semi-supervised Training for Knowledge Base Graph Self-attention Networks on Link Prediction [20.64973530280006]
本稿では,隣接ノードの情報集約係数(自己アテンション)について検討し,GAT構造の自己アテンション機構を再設計する。人間の思考習慣に触発されて,事前学習モデルを用いた半教師付き自己学習法を考案した。実験結果から,提案する自己注意機構と半教師付き自己学習法はリンク予測タスクの性能を効果的に向上できることが示された。
論文参考訳（メタデータ） (2022-09-03T07:27:28Z)
Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文参考訳（メタデータ） (2021-12-09T19:13:41Z)
International Workshop on Continual Semi-Supervised Learning: Introduction, Benchmarks and Baselines [20.852277473776617]
本研究の目的は,CSSL(Continuous semi-supervised learning)パラダイムを定式化することである。本稿では、2つの重要なコンピュータビジョンタスクでCSSLを評価するために特別に設計された2つの新しいベンチマークを紹介する。本稿では,これらのベンチマーク上に構築されたCAR(Continuous Activity Recognition)とCCC(Continuous Crowd Counting)の課題について述べる。
論文参考訳（メタデータ） (2021-10-27T17:34:40Z)
2nd Place Solution for SODA10M Challenge 2021 -- Continual Detection Track [35.06282647572304]
ResNet50-FPNをベースラインとして採用し、最終的な提案モデルのいくつかの改善を試みる。タスク固有のリプレイ方式,学習率スケジューリング,モデルキャリブレーション,原画像スケールの使用により,画像中の大小オブジェクトの性能向上が期待できる。
論文参考訳（メタデータ） (2021-10-25T15:58:19Z)
Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文参考訳（メタデータ） (2021-06-07T08:38:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。