Fugu-MT 論文翻訳(概要): Runner re-identification from single-view running video in the open-world setting

論文の概要: Runner re-identification from single-view running video in the open-world setting

arxiv url: http://arxiv.org/abs/2310.11700v2
Date: Wed, 17 Apr 2024 01:04:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 19:30:24.073736
Title: Runner re-identification from single-view running video in the open-world setting
Title（参考訳）: オープンワールドにおけるランニングビデオからのランナー再識別
Authors: Tomohiro Suzuki, Kazushi Tsutsui, Kazuya Takeda, Keisuke Fujii,
Abstract要約: 提案システムでは,入力として生映像を自動的に処理してランナーを識別し,複数回フレームアウトしてもランナーを識別できる。自動処理では、事前に訓練されたYOLOv8と微調整されたEfficientNetを用いて、ビデオ中のランナーを検出する。ランナー再識別の精度を向上させるため,ランニングシーケンス画像の局所像特徴と動的特徴として靴画像を用いる。
参考スコア（独自算出の注目度）: 4.698301288096061
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In many sports, player re-identification is crucial for automatic video processing and analysis. However, most of the current studies on player re-identification in multi- or single-view sports videos focus on re-identification in the closed-world setting using labeled image dataset, and player re-identification in the open-world setting for automatic video analysis is not well developed. In this paper, we propose a runner re-identification system that directly processes single-view video to address the open-world setting. In the open-world setting, we cannot use labeled dataset and have to process video directly. The proposed system automatically processes raw video as input to identify runners, and it can identify runners even when they are framed out multiple times. For the automatic processing, we first detect the runners in the video using the pre-trained YOLOv8 and the fine-tuned EfficientNet. We then track the runners using ByteTrack and detect their shoes with the fine-tuned YOLOv8. Finally, we extract the image features of the runners using an unsupervised method with the gated recurrent unit autoencoder and global and local features mixing. To improve the accuracy of runner re-identification, we use shoe images as local image features and dynamic features of running sequence images. We evaluated the system on a running practice video dataset and showed that the proposed method identified runners with higher accuracy than some state-of-the-art models in unsupervised re-identification. We also showed that our proposed local image feature and running dynamic feature were effective for runner re-identification. Our runner re-identification system can be useful for the automatic analysis of running videos.
Abstract（参考訳）: 多くのスポーツにおいて、プレイヤーの再識別は自動ビデオ処理と分析に不可欠である。しかし,近年の多視点スポーツビデオやシングルビュースポーツビデオにおけるプレイヤー再識別に関する研究の多くは,ラベル付き画像データセットを用いた閉世界設定におけるプレイヤー再識別に焦点を合わせており,自動ビデオ解析のためのオープンワールド設定におけるプレイヤー再識別は未発達である。本稿では,オープンワールド設定に対処するために,シングルビュー映像を直接処理するランナー再識別システムを提案する。オープンワールド設定では、ラベル付きデータセットは使用できず、ビデオを直接処理する必要があります。提案システムは,入力として生映像を自動処理してランナーを識別し,複数回フレームアウトしてもランナーを識別する。自動処理では、事前に訓練されたYOLOv8と微調整されたEfficientNetを用いて、ビデオ中のランナーを検出する。次に、ByteTrackを使用してランナーを追跡し、微調整されたYOLOv8で靴を検出する。最後に、ゲート型再帰ユニットオートエンコーダとグローバルおよびローカルな特徴混合を用いた教師なし手法を用いて、ランナーの画像特徴を抽出する。ランナー再識別の精度を向上させるため,ランニングシーケンス画像の局所像特徴と動的特徴として靴画像を用いる。ランニング実践ビデオデータセットを用いてシステム評価を行い,教師なし再同定における最先端モデルよりも高い精度でランナーを特定した。また,提案する局所画像特徴と実行動的特徴がランニング再同定に有効であることを示した。ランニングビデオの自動解析には,ランナーの身元確認システムが有用である。

関連論文リスト

Combining YOLO and Visual Rhythm for Vehicle Counting [0.36832029288386137]
ビデオによる車両の検知とカウントは、輸送インフラの管理において重要な役割を果たす。従来の画像ベースのカウント手法は、通常、初期検出とその後の追跡という2つの主要なステップを含む。本研究は、車両の検出とカウントのための代替的で効率的な方法を提案する。
論文参考訳（メタデータ） (2025-01-08T14:33:47Z)
Sharingan: Extract User Action Sequence from Desktop Recordings [39.654197480435656]
本稿では,デスクトップ記録からユーザアクションを抽出する2つの新しい手法を提案する。 Direct Frame-Based Approach (DF)は、サンプルフレームを直接Vision-Language Models (VLM) に入力し、differial Frame-Based Approach (DiffF) はコンピュータビジョン技術を介して検出された明示的なフレーム差分を組み込む。その結果,DF手法はユーザ動作の同定において70%から80%の精度を達成でき,抽出した動作シーケンスはロボット処理自動化でも再生可能であることがわかった。
論文参考訳（メタデータ） (2024-11-13T16:53:29Z)
Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy [3.713586225621126]
ロボットは、シーンのセマンティック理解に基づいて、画像内のセマンティック・トラバース可能な地形を識別する能力を持つ必要がある。この推論能力はセマンティックトラバーサビリティに基づいており、テストドメイン上で微調整されたセマンティックセグメンテーションモデルを使用して頻繁に達成される。本稿では,エゴセントリックなビデオと自動アノテーションプロセスを用いて,セマンティック・トラバーサビリティ推定器を訓練するための効果的な手法を提案する。
論文参考訳（メタデータ） (2024-06-05T06:40:04Z)
Domain-Guided Masked Autoencoders for Unique Player Identification [62.87054782745536]
マスク付きオートエンコーダ (MAE) は, 従来の特徴抽出器よりも優れた代替手段として出現している。人間の視覚に触発され、我々はd-MAEと呼ばれるMAEのための新しいドメイン誘導マスキングポリシーを考案した。 3つの大規模スポーツデータセットの実験を行った。
論文参考訳（メタデータ） (2024-03-17T20:14:57Z)
Follow Anything: Open-set detection, tracking, and following in real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。 FAnは軽量(6～8GB)グラフィックカードでラップトップにデプロイでき、毎秒6～20フレームのスループットを実現する。
論文参考訳（メタデータ） (2023-08-10T17:57:06Z)
Deep Learning Computer Vision Algorithms for Real-time UAVs On-board Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文参考訳（メタデータ） (2022-11-02T11:10:42Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
Watching You: Global-guided Reciprocal Learning for Video-based Person Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文参考訳（メタデータ） (2021-03-07T12:27:42Z)
Automated Video Labelling: Identifying Faces by Corroborative Evidence [79.44208317138784]
本稿では,複数のエビデンスソースと複数のモダリティを組み合わせることで,テレビ放送などのビデオアーカイブ内のすべての顔を自動的にラベル付けする手法を提案する。本研究では,人物が有名であるか否かを画像検索エンジンを用いて判定する,新しい,シンプルな手法を提案する。あまり有名でない人であっても、画像検索エンジンは、シーンやスピーチで命名された顔の正確なラベル付けに役立てることができる。
論文参考訳（メタデータ） (2021-02-10T18:57:52Z)
Domain Adversarial Training for Infrared-colour Person Re-Identification [19.852463786440122]
人物再識別(re-ID)はコンピュータビジョンにおける非常に活発な研究分野である。ほとんどの方法は色画像間のマッチングのタスクにのみ対処する。暗い環境では、CCTVカメラは赤外線イメージングに切り替える。そこで本稿では,人物の微妙でユニークな署名に焦点をあてる部分特徴抽出ネットワークを提案する。
論文参考訳（メタデータ） (2020-03-09T15:17:15Z)
Unsupervised Temporal Feature Aggregation for Event Detection in Unstructured Sports Videos [10.230408415438966]
任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
論文参考訳（メタデータ） (2020-02-19T10:24:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。