論文の概要: A Boosted Model Ensembling Approach to Ball Action Spotting in Videos:
The Runner-Up Solution to CVPR'23 SoccerNet Challenge
- arxiv url: http://arxiv.org/abs/2306.05772v2
- Date: Mon, 12 Jun 2023 05:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 11:27:37.882783
- Title: A Boosted Model Ensembling Approach to Ball Action Spotting in Videos:
The Runner-Up Solution to CVPR'23 SoccerNet Challenge
- Title(参考訳): ビデオにおけるボールアクションスポッティングの強化モデル:CVPR'23サッカーネットチャレンジにおけるランナーアップソリューション
- Authors: Luping Wang, Hao Guo, Bin Liu
- Abstract要約: 本報告では,ビデオにおけるボールアクションスポッティングの解決策について述べる。
CVPR'23 SoccerNet Challengeで2位となった。
- 参考スコア(独自算出の注目度): 13.784332796429556
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This technical report presents our solution to Ball Action Spotting in
videos. Our method reached second place in the CVPR'23 SoccerNet Challenge.
Details of this challenge can be found at
https://www.soccer-net.org/tasks/ball-action-spotting. Our approach is
developed based on a baseline model termed E2E-Spot, which was provided by the
organizer of this competition. We first generated several variants of the
E2E-Spot model, resulting in a candidate model set. We then proposed a strategy
for selecting appropriate model members from this set and assigning an
appropriate weight to each model. The aim of this strategy is to boost the
performance of the resulting model ensemble. Therefore, we call our approach
Boosted Model Ensembling (BME). Our code is available at
https://github.com/ZJLAB-AMMI/E2E-Spot-MBS.
- Abstract(参考訳): 本技術報告では,ビデオにおけるボールアクションスポッティングの解決策について述べる。
CVPR'23 SoccerNet Challengeで2位となった。
この課題の詳細はhttps://www.soccer-net.org/tasks/ball-action-spottingにある。
提案手法は,コンペティションの主催者によるE2E-Spotと呼ばれるベースラインモデルに基づいて開発されている。
E2E-Spotモデルのいくつかの変種を最初に生成し、候補モデルセットを得た。
次に,この集合から適切なモデルメンバを選択し,各モデルに適切な重みを割り当てる戦略を提案する。
この戦略の目的は、結果のモデルアンサンブルのパフォーマンスを高めることである。
したがって、我々のアプローチをBoosted Model Ensembling (BME)と呼ぶ。
私たちのコードはhttps://github.com/ZJLAB-AMMI/E2E-Spot-MBSで公開されています。
関連論文リスト
- First Place Solution to the Multiple-choice Video QA Track of The Second Perception Test Challenge [4.075139470537149]
The Second Perception Test Challenge(第2回知覚テストチャレンジ)のマルチチョイスビデオ質問回答トラックへの第1位ソリューションを提示する。
このコンペティションは複雑なビデオ理解の課題を提起し、ビデオコンテンツに関する質問を正確に理解し答えるモデルを必要とした。
論文 参考訳(メタデータ) (2024-09-20T14:31:13Z) - A Foundation Model for Soccer [0.0]
提案するサッカーの基盤モデルでは,与えられたアクションの入力シーケンスから,サッカーの試合におけるその後のアクションを予測することができる。
概念実証として,プロサッカーリーグの3シーズンのデータに対して,トランスフォーマーアーキテクチャをトレーニングする。
論文 参考訳(メタデータ) (2024-07-18T15:42:08Z) - Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge [9.915564470970049]
We present our solution for the WSDM2023 Toloka Visual Question Answering Challenge。
マルチモーダル事前学習モデルの適用に触発されて,我々は3段階のソリューションを設計した。
我々のチームは最終予選で76.342点を獲得し、ランキング2位となった。
論文 参考訳(メタデータ) (2024-07-05T04:56:05Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Deep Model Assembling [31.88606253639418]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。
大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。
すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。
これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文 参考訳(メタデータ) (2022-12-08T08:04:06Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。