論文の概要: Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using
Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2302.02752v1
- Date: Mon, 6 Feb 2023 12:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-02-07 16:48:14.477650
- Title: Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using
Attention Mechanisms
- Title(参考訳): 注意機構を用いた3次元CNNを用いたメディアEval 2022スポーツタスクのベースライン法
- Authors: Pierre-Etienne Martin
- Abstract要約: 本稿では,MediaEval 2022ベンチマークのスポーツビデオタスク部に提案するベースライン手法を提案する。
本課題では,トリミングビデオからのストローク分類と,未トリミングビデオからのストローク検出という2つのサブタスクを提案する。
本稿では,2つのサブタスクを解決するために,2種類の3D-CNNアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 1.713291434132985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the baseline method proposed for the Sports Video task
part of the MediaEval 2022 benchmark. This task proposes two subtasks: stroke
classification from trimmed videos, and stroke detection from untrimmed videos.
This baseline addresses both subtasks. We propose two types of 3D-CNN
architectures to solve the two subtasks. Both 3D-CNNs use Spatio-temporal
convolutions and attention mechanisms. The architectures and the training
process are tailored to solve the addressed subtask. This baseline method is
shared publicly online to help the participants in their investigation and
alleviate eventually some aspects of the task such as video processing,
training method, evaluation and submission routine. The baseline method reaches
86.4% of accuracy with our v2 model for the classification subtask. For the
detection subtask, the baseline reaches a mAP of 0.131 and IoU of 0.515 with
our v1 model.
- Abstract(参考訳): 本稿では,MediaEval 2022ベンチマークのスポーツビデオタスク部に提案するベースライン手法を提案する。
このタスクは、トリミングビデオからのストローク分類と、トリミングビデオからのストローク検出の2つのサブタスクを提案する。
このベースラインは両方のサブタスクに対処します。
2つのサブタスクを解決するために,2種類の3d-cnnアーキテクチャを提案する。
3d-cnnは時空間畳み込みと注意機構を使用する。
アーキテクチャとトレーニングプロセスは、アドレス付きサブタスクを解決するように調整されている。
このベースライン手法は、参加者が調査を行い、最終的にビデオ処理、トレーニング方法、評価、提出ルーチンといったタスクのいくつかの側面を緩和するために、オンラインで公開されている。
ベースライン法は分類サブタスクの v2 モデルで 86.4% の精度に達する。
検出サブタスクでは、ベースラインが0.131mAP、IoUが0.515mAPに達する。
関連論文リスト
- Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Self Similarity Matrix based CNN Filter Pruning [1.6799377888527687]
2次元CNNフィルタから計算した自己相似行列(SSM)の助けを借りてCNNモデルプルーニングの問題に取り組む。
出力に類似したアクティベーションマップに寄与する冗長フィルタのランク付けとプーン化のための2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:47:44Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - Spatio-Temporal CNN baseline method for the Sports Video Task of
MediaEval 2021 benchmark [0.0]
本稿では,脳卒中検出と脳卒中サブタスクを提案する。
モデルの紙時間トレーニングプロセスは、アドレスサブタスクに合わせて調整される。
それでも、検出タスクでは、ベースラインは他の参加者よりも優れたパフォーマンスを示しており、そのようなタスクの難しさを強調している。
論文 参考訳(メタデータ) (2021-12-16T10:22:28Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Self-Supervised Video Representation Learning with Meta-Contrastive
Network [10.768575680990415]
自己教師型アプローチの学習能力を高めるためのメタコントラストネットワーク(MCN)を提案する。
2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNは最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-08-19T01:21:13Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Uniformizing Techniques to Process CT scans with 3D CNNs for
Tuberculosis Prediction [5.270882613122642]
深部2次元畳み込みニューラルネットワーク(CNN)を用いたボリュームデータにおける医用画像解析への共通アプローチ
個々のスライスを2D CNNで独立に扱うと、意図したタスクのパフォーマンスが低下する深度情報を意図的に破棄する。
上記の問題に対処するためのボリューム均一化手法のセットを評価する。
画像情報のみを活用する全手法に勝るテストセットに対して,曲線下面積 (AUC) と二分分類精度 (ACC) を67.5%と報告した。
論文 参考訳(メタデータ) (2020-07-26T21:53:47Z) - 2.75D: Boosting learning by representing 3D Medical imaging to 2D
features for small data [54.223614679807994]
3D畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングタスクにおいて、2D CNNよりも優れたパフォーマンスを示し始めている。
3D CNNにトランスファー学習を適用することは、パブリックにトレーニング済みの3Dモデルがないために困難である。
本研究では,ボリュームデータの2次元戦略的表現,すなわち2.75Dを提案する。
その結果,2次元CNNネットワークをボリューム情報学習に用いることが可能となった。
論文 参考訳(メタデータ) (2020-02-11T08:24:19Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。