論文の概要: Spatio-Temporal CNN baseline method for the Sports Video Task of
MediaEval 2021 benchmark
- arxiv url: http://arxiv.org/abs/2112.12074v1
- Date: Thu, 16 Dec 2021 10:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 12:27:09.825778
- Title: Spatio-Temporal CNN baseline method for the Sports Video Task of
MediaEval 2021 benchmark
- Title(参考訳): MediaEval 2021ベンチマークにおけるスポーツビデオタスクの時空間CNNベースライン法
- Authors: Pierre-Etienne Martin (LaBRI, MPI-EVA, UB)
- Abstract要約: 本稿では,脳卒中検出と脳卒中サブタスクを提案する。
モデルの紙時間トレーニングプロセスは、アドレスサブタスクに合わせて調整される。
それでも、検出タスクでは、ベースラインは他の参加者よりも優れたパフォーマンスを示しており、そのようなタスクの難しさを強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the baseline method proposed for the Sports Video task
part of the MediaEval 2021 benchmark. This task proposes a stroke detection and
a stroke classification subtasks. This baseline addresses both subtasks. The
spatio-temporal CNN architecture and the training process of the model are
tailored according to the addressed subtask. The method has the purpose of
helping the participants to solve the task and is not meant to reach
stateof-the-art performance. Still, for the detection task, the baseline is
performing better than the other participants, which stresses the difficulty of
such a task.
- Abstract(参考訳): 本稿では,MediaEval 2021ベンチマークのスポーツビデオタスク部に提案するベースライン手法を提案する。
このタスクは、ストローク検出とストローク分類サブタスクを提案する。
このベースラインは両方のサブタスクに対処します。
時空間CNNアーキテクチャとモデルのトレーニングプロセスは、アドレスサブタスクに従って調整される。
このメソッドは、参加者がタスクを解決するのを助けることを目的としており、最先端のパフォーマンスに到達することを意図していない。
それでも検出タスクでは、ベースラインが他の参加者よりも優れており、そのようなタスクの難しさを強調している。
関連論文リスト
- DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial
Training [1.5478632117921842]
本稿では、エージェントがタスクについて積極的に質問できる設定において、後続の命令を具体化するタスクであるDialFREDタスクに焦点を当てる。
本稿では,言語,画像,行動の潜在空間に対向的摂動を組み込んだDialMATを提案する。
このモデルは、CVPR 2023 Embodied AIワークショップで行われたDialFRED Challengeでトップの地位を確保した。
論文 参考訳(メタデータ) (2023-11-12T14:12:19Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using
Attention Mechanisms [1.713291434132985]
本稿では,MediaEval 2022ベンチマークのスポーツビデオタスク部に提案するベースライン手法を提案する。
本課題では,トリミングビデオからのストローク分類と,未トリミングビデオからのストローク検出という2つのサブタスクを提案する。
本稿では,2つのサブタスクを解決するために,2種類の3D-CNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-06T12:58:01Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - A Stronger Baseline for Ego-Centric Action Detection [38.934802199184354]
本稿では,CVPR2021ワークショップ主催のEPIC-KITCHENS-100コンペティションで使用した,エゴセントリックなビデオアクション検出手法について分析する。
我々の課題は、長い未トリミングビデオでアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
我々は、ショートデュレーションアクションに適応できる提案を生成するためにスライディングウインドウ戦略を採用する。
論文 参考訳(メタデータ) (2021-06-13T08:11:31Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Fast Template Matching and Update for Video Object Tracking and
Segmentation [56.465510428878]
私たちが取り組もうとしている主な課題は、フレームの列にまたがるマルチインスタンスの半教師付きビデオオブジェクトセグメンテーションである。
課題は、結果を予測するためのマッチングメソッドの選択と、ターゲットテンプレートを更新するかどうかを決定することである。
本稿では,これら2つの決定を同時に行うために,強化学習を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T08:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。