Fugu-MT 論文翻訳(概要): A Boosted Model Ensembling Approach to Ball Action Spotting in Videos: The Runner-Up Solution to CVPR'23 SoccerNet Challenge

論文の概要: A Boosted Model Ensembling Approach to Ball Action Spotting in Videos: The Runner-Up Solution to CVPR'23 SoccerNet Challenge

arxiv url: http://arxiv.org/abs/2306.05772v1
Date: Fri, 9 Jun 2023 09:25:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-12 13:58:39.308133
Title: A Boosted Model Ensembling Approach to Ball Action Spotting in Videos: The Runner-Up Solution to CVPR'23 SoccerNet Challenge
Title（参考訳）: ビデオにおけるボールアクションスポッティングの強化モデル:CVPR'23サッカーネットチャレンジにおけるランナーアップソリューション
Authors: Luping Wang, Hao Guo, Bin Liu
Abstract要約: 本報告では,ビデオにおけるボールアクションスポッティングの解決策について述べる。 CVPR'23 SoccerNet Challengeで2位となった。
参考スコア（独自算出の注目度）: 13.784332796429556
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This technical report presents our solution to Ball Action Spotting in videos. Our method reached second place in the CVPR'23 SoccerNet Challenge. Details of this challenge can be found at https://www.soccer-net.org/tasks/ball-action-spotting. Our approach is developed based on a baseline model termed E2E-Spot, which was provided by the organizer of this competition. We first generated several variants of the E2E-Spot model, resulting in a candidate model set. We then proposed a strategy for selecting appropriate model members from this set and assigning an appropriate weight to each model. The aim of this strategy is to boost the performance of the resulting model ensemble. Therefore, we call our approach Boosted Model Ensembling (BME). Our code is available at https://github.com/ZJLAB-AMMI/E2E-Spot-MBS.
Abstract（参考訳）: 本技術報告では,ビデオにおけるボールアクションスポッティングの解決策について述べる。 CVPR'23 SoccerNet Challengeで2位となった。この課題の詳細はhttps://www.soccer-net.org/tasks/ball-action-spottingにある。提案手法は,コンペティションの主催者によるE2E-Spotと呼ばれるベースラインモデルに基づいて開発されている。 E2E-Spotモデルのいくつかの変種を最初に生成し、候補モデルセットを得た。次に,この集合から適切なモデルメンバを選択し,各モデルに適切な重みを割り当てる戦略を提案する。この戦略の目的は、結果のモデルアンサンブルのパフォーマンスを高めることである。したがって、我々のアプローチをBoosted Model Ensembling (BME)と呼ぶ。私たちのコードはhttps://github.com/ZJLAB-AMMI/E2E-Spot-MBSで公開されています。

関連論文リスト

VidBridge-R1: Bridging QA and Captioning for RL-based Video Understanding Models with Intermediate Proxy Tasks [41.90092896728809]
VidBridge-R1は、"Reason-Then-Respond"パラダイムの競合を効果的に橋渡しする、世界初の多目的ビデオ推論モデルである。大規模な実験により、VidBridge-R1は1つのモデルにおいて、QAとキャプションの両方で大きなパフォーマンス向上を達成することが示された。
論文参考訳（メタデータ） (2025-06-10T03:57:53Z)
First Place Solution to the Multiple-choice Video QA Track of The Second Perception Test Challenge [4.075139470537149]
The Second Perception Test Challenge(第2回知覚テストチャレンジ)のマルチチョイスビデオ質問回答トラックへの第1位ソリューションを提示する。このコンペティションは複雑なビデオ理解の課題を提起し、ビデオコンテンツに関する質問を正確に理解し答えるモデルを必要とした。
論文参考訳（メタデータ） (2024-09-20T14:31:13Z)
A Foundation Model for Soccer [0.0]
提案するサッカーの基盤モデルでは,与えられたアクションの入力シーケンスから,サッカーの試合におけるその後のアクションを予測することができる。概念実証として,プロサッカーリーグの3シーズンのデータに対して,トランスフォーマーアーキテクチャをトレーニングする。
論文参考訳（メタデータ） (2024-07-18T15:42:08Z)
Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge [9.915564470970049]
We present our solution for the WSDM2023 Toloka Visual Question Answering Challenge。マルチモーダル事前学習モデルの適用に触発されて,我々は3段階のソリューションを設計した。我々のチームは最終予選で76.342点を獲得し、ランキング2位となった。
論文参考訳（メタデータ） (2024-07-05T04:56:05Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (2023-07-30T09:48:36Z)
GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文参考訳（メタデータ） (2023-06-27T07:27:52Z)
Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文参考訳（メタデータ） (2023-05-26T15:04:20Z)
Deep Model Assembling [31.88606253639418]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文参考訳（メタデータ） (2022-12-08T08:04:06Z)
Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文参考訳（メタデータ） (2022-11-29T09:28:05Z)
REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。 2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文参考訳（メタデータ） (2022-09-29T17:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。