論文の概要: Neural Network-Based Tracking and 3D Reconstruction of Baseball Pitch Trajectories from Single-View 2D Video
- arxiv url: http://arxiv.org/abs/2405.16296v1
- Date: Sat, 25 May 2024 16:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 21:57:23.886573
- Title: Neural Network-Based Tracking and 3D Reconstruction of Baseball Pitch Trajectories from Single-View 2D Video
- Title(参考訳): シングルビュー2Dビデオによるニューラルネットワークによる野球ピッチ軌跡の追跡と3次元再構成
- Authors: Jhen Hsieh,
- Abstract要約: 本稿では,2次元映像から3次元座標まで,野球球の軌跡の追跡と再構成のためのニューラルネットワークによるアプローチを提案する。
実験結果から,本手法は2次元入力から3次元軌跡を復元する際の精度が高いことが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present a neural network-based approach for tracking and reconstructing the trajectories of baseball pitches from 2D video footage to 3D coordinates. We utilize OpenCV's CSRT algorithm to accurately track the baseball and fixed reference points in 2D video frames. These tracked pixel coordinates are then used as input features for our neural network model, which comprises multiple fully connected layers to map the 2D coordinates to 3D space. The model is trained on a dataset of labeled trajectories using a mean squared error loss function and the Adam optimizer, optimizing the network to minimize prediction errors. Our experimental results demonstrate that this approach achieves high accuracy in reconstructing 3D trajectories from 2D inputs. This method shows great potential for applications in sports analysis, coaching, and enhancing the accuracy of trajectory predictions in various sports.
- Abstract(参考訳): 本稿では,2次元映像から3次元座標まで,野球球の軌跡の追跡と再構成のためのニューラルネットワークによるアプローチを提案する。
我々は,OpenCVのCSRTアルゴリズムを用いて,2次元ビデオフレーム内の野球および固定基準点を正確に追跡する。
これらの追跡されたピクセル座標は、ニューラルネットワークモデルの入力機能として使用され、2次元座標を3次元空間にマッピングするために、複数の完全に接続された層から構成される。
このモデルは平均二乗誤差損失関数とAdamオプティマイザを用いてラベル付き軌道のデータセットに基づいてトレーニングされ、予測エラーを最小限に抑えるためにネットワークを最適化する。
実験結果から,本手法は2次元入力から3次元軌跡を復元する際の精度が高いことが示された。
本手法は, スポーツ分析, コーチング, および各種スポーツにおける軌道予測の精度向上に有効であることを示す。
関連論文リスト
- Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Geometry-Aware Attenuation Learning for Sparse-View CBCT Reconstruction [53.93674177236367]
Cone Beam Computed Tomography (CBCT) は臨床画像撮影において重要な役割を担っている。
従来の方法では、高品質な3D CBCT画像の再構成には数百の2次元X線投影が必要である。
これにより、放射線線量を減らすため、スパースビューCBCT再構成への関心が高まっている。
本稿では,この問題を解決するために,新しい幾何対応エンコーダデコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T14:38:42Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation [7.559220068352681]
本稿では,2次元と3次元で手とオブジェクトのポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。
我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。
論文 参考訳(メタデータ) (2020-03-31T19:01:42Z) - Pointwise Attention-Based Atrous Convolutional Neural Networks [15.499267533387039]
多数の点を効率的に扱うために,注目度に基づくアトラス畳み込みニューラルネットワークアーキテクチャを提案する。
提案モデルは,3次元セマンティックセグメンテーションタスクにおいて,最も重要な2つの3Dポイントクラウドデータセット上で評価されている。
精度の面では最先端モデルと比較して妥当な性能を達成し、パラメータの数ははるかに少ない。
論文 参考訳(メタデータ) (2019-12-27T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。