論文の概要: A Boosted Model Ensembling Approach to Ball Action Spotting in Videos:
The Runner-Up Solution to CVPR'23 SoccerNet Challenge
- arxiv url: http://arxiv.org/abs/2306.05772v1
- Date: Fri, 9 Jun 2023 09:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 13:58:39.308133
- Title: A Boosted Model Ensembling Approach to Ball Action Spotting in Videos:
The Runner-Up Solution to CVPR'23 SoccerNet Challenge
- Title(参考訳): ビデオにおけるボールアクションスポッティングの強化モデル:CVPR'23サッカーネットチャレンジにおけるランナーアップソリューション
- Authors: Luping Wang, Hao Guo, Bin Liu
- Abstract要約: 本報告では,ビデオにおけるボールアクションスポッティングの解決策について述べる。
CVPR'23 SoccerNet Challengeで2位となった。
- 参考スコア(独自算出の注目度): 13.784332796429556
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This technical report presents our solution to Ball Action Spotting in
videos. Our method reached second place in the CVPR'23 SoccerNet Challenge.
Details of this challenge can be found at
https://www.soccer-net.org/tasks/ball-action-spotting. Our approach is
developed based on a baseline model termed E2E-Spot, which was provided by the
organizer of this competition. We first generated several variants of the
E2E-Spot model, resulting in a candidate model set. We then proposed a strategy
for selecting appropriate model members from this set and assigning an
appropriate weight to each model. The aim of this strategy is to boost the
performance of the resulting model ensemble. Therefore, we call our approach
Boosted Model Ensembling (BME). Our code is available at
https://github.com/ZJLAB-AMMI/E2E-Spot-MBS.
- Abstract(参考訳): 本技術報告では,ビデオにおけるボールアクションスポッティングの解決策について述べる。
CVPR'23 SoccerNet Challengeで2位となった。
この課題の詳細はhttps://www.soccer-net.org/tasks/ball-action-spottingにある。
提案手法は,コンペティションの主催者によるE2E-Spotと呼ばれるベースラインモデルに基づいて開発されている。
E2E-Spotモデルのいくつかの変種を最初に生成し、候補モデルセットを得た。
次に,この集合から適切なモデルメンバを選択し,各モデルに適切な重みを割り当てる戦略を提案する。
この戦略の目的は、結果のモデルアンサンブルのパフォーマンスを高めることである。
したがって、我々のアプローチをBoosted Model Ensembling (BME)と呼ぶ。
私たちのコードはhttps://github.com/ZJLAB-AMMI/E2E-Spot-MBSで公開されています。
関連論文リスト
- UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Learning to Perceive in Deep Model-Free Reinforcement Learning [1.2891210250935146]
本研究は、入力観察の一部にのみアクセス可能な未知のタスクの完了方法を学ぶことができる、新しいモデルフリー強化学習(RL)エージェントを提案する。
我々は、人間の特徴である視覚的注意と能動的知覚の概念からインスピレーションを得て、エージェントにそれらを適用しようとした。
論文 参考訳(メタデータ) (2023-01-10T00:31:57Z) - Deep Model Assembling [31.88606253639418]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。
大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。
すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。
これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文 参考訳(メタデータ) (2022-12-08T08:04:06Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Technical Report for CVPR 2022 LOVEU AQTC Challenge [3.614550981030065]
本稿では,CVPR 2022のLong-form VidEo Understanding (LOVEU)課題に新たに導入されたタスクであるAQTCの2つ目の勝利モデルを示す。
この課題は、ビデオにおける多段階の回答、マルチモーダル、多様で変化するボタン表現の難しさに直面する。
より効率的な特徴マッピングのための新しいコンテキスト基底モジュールアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:07:43Z) - Exploiting the Matching Information in the Support Set for Few Shot
Event Classification [66.31312496170139]
数ショットの学習セットに基づくイベント分類について検討する。
本稿では,学習過程におけるサポートセットを効果的に活用する新たなトレーニング手法を提案する。
2つのベンチマークECデータセットを用いた実験の結果,提案手法は,イベント分類の精度を最大10%向上できることがわかった。
論文 参考訳(メタデータ) (2020-02-13T00:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。