論文の概要: CLIP-ReIdent: Contrastive Training for Player Re-Identification
- arxiv url: http://arxiv.org/abs/2303.11855v1
- Date: Tue, 21 Mar 2023 13:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 15:00:07.632389
- Title: CLIP-ReIdent: Contrastive Training for Player Re-Identification
- Title(参考訳): CLIP-ReIdent:プレイヤー再識別のためのコントラストトレーニング
- Authors: Konrad Habel, Fabian Deuser, Norbert Oswald
- Abstract要約: 事前学習したCLIPモデルのゼロショット性能をプレイヤー再識別領域に転送できるかどうかを検討する。
これまでの研究とは異なり、私たちのアプローチは完全にクラスに依存しず、大規模な事前トレーニングの恩恵を受けています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sports analytics benefits from recent advances in machine learning providing
a competitive advantage for teams or individuals. One important task in this
context is the performance measurement of individual players to provide reports
and log files for subsequent analysis. During sport events like basketball,
this involves the re-identification of players during a match either from
multiple camera viewpoints or from a single camera viewpoint at different
times. In this work, we investigate whether it is possible to transfer the
out-standing zero-shot performance of pre-trained CLIP models to the domain of
player re-identification. For this purpose we reformulate the contrastive
language-to-image pre-training approach from CLIP to a contrastive
image-to-image training approach using the InfoNCE loss as training objective.
Unlike previous work, our approach is entirely class-agnostic and benefits from
large-scale pre-training. With a fine-tuned CLIP ViT-L/14 model we achieve
98.44 % mAP on the MMSports 2022 Player Re-Identification challenge.
Furthermore we show that the CLIP Vision Transformers have already strong OCR
capabilities to identify useful player features like shirt numbers in a
zero-shot manner without any fine-tuning on the dataset. By applying the
Score-CAM algorithm we visualise the most important image regions that our
fine-tuned model identifies when calculating the similarity score between two
images of a player.
- Abstract(参考訳): スポーツ分析は、チームや個人にとって競争上の優位性を提供する機械学習の最近の進歩の恩恵を受ける。
この文脈における重要な課題の1つは、その後の分析のためにレポートとログファイルを提供する個々のプレイヤーのパフォーマンス測定である。
バスケットボールのようなスポーツイベントでは、複数のカメラ視点から、または異なるタイミングで単一のカメラ視点から、試合中の選手を再識別する。
本研究では,事前学習したCLIPモデルの出力ゼロショット性能をプレイヤー再識別領域に転送できるかどうかを検討する。
この目的のために,インフォメーションロスを訓練目標として,クリップからコントラスト画像から画像への事前学習アプローチを再構成する。
これまでの作業とは異なり、私たちのアプローチは完全にクラスに依存しており、大規模な事前トレーニングの恩恵を受けています。
微調整のCLIP ViT-L/14モデルでは、MMSports 2022 Player Re-Identification Challengeで98.44 % mAPを達成した。
さらに、CLIP Vision Transformerは、データセットを微調整することなく、0ショット方式でシャツ番号などの有用なプレイヤー機能を識別できる強力なOCR機能を持っていることを示す。
Score-CAMアルゴリズムを適用することで、プレイヤーの2つの画像間の類似度スコアを計算する際に、微調整モデルが識別する最も重要な画像領域を可視化する。
関連論文リスト
- Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Masked Autoencoding Does Not Help Natural Language Supervision at Scale [16.277390808400828]
より大量のデータでトレーニングした場合、同様のアプローチが有効かどうかを検討する。
マスク付きオートエンコーダ、MAE、コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで、CLIPは11.3Mイメージテキストペアのコーパスでトレーニングした場合、CLIPよりもメリットがあることがわかった。
論文 参考訳(メタデータ) (2023-01-19T01:05:18Z) - A Graph-Based Method for Soccer Action Spotting Using Unsupervised
Player Classification [75.93186954061943]
アクションスポッティングには、ゲームのダイナミクス、イベントの複雑さ、ビデオシーケンスのバリエーションを理解することが含まれる。
本研究では, (a) 選手, 審判, ゴールキーパーをグラフのノードとして識別し, および (b) 時間的相互作用をグラフのシーケンスとしてモデル化することによって, 前者に焦点を当てる。
プレーヤ識別タスクでは,他のモダリティと組み合わせることで,平均mAPの57.83%の総合的な性能が得られる。
論文 参考訳(メタデータ) (2022-11-22T15:23:53Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Sports Re-ID: Improving Re-Identification Of Players In Broadcast Videos
Of Team Sports [0.0]
本研究は、チームスポーツの放送ビデオにおけるプレイヤーの再識別に焦点を当てている。
具体的には、試合の特定の瞬間に異なるカメラ視点から撮影された画像において、同じプレイヤーを特定することに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-06T06:06:23Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Unsupervised Visual Representation Learning by Tracking Patches in Video [88.56860674483752]
本研究では,コンピュータビジョンシステムのプロキシタスクとしてトラッキングを用いて視覚表現を学習することを提案する。
子どもたちがプレイするキャッチゲームをベースに、視覚表現を学ぶ3D-CNNモデルのためのキャッチ・ザ・パッチ(CtP)ゲームを設計します。
論文 参考訳(メタデータ) (2021-05-06T09:46:42Z) - Unsupervised Temporal Feature Aggregation for Event Detection in
Unstructured Sports Videos [10.230408415438966]
任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。
我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
論文 参考訳(メタデータ) (2020-02-19T10:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。