論文の概要: TT4D: A Pipeline and Dataset for Table Tennis 4D Reconstruction From Monocular Videos
- arxiv url: http://arxiv.org/abs/2605.01234v1
- Date: Sat, 02 May 2026 04:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.6571
- Title: TT4D: A Pipeline and Dataset for Table Tennis 4D Reconstruction From Monocular Videos
- Title(参考訳): TT4D:単眼ビデオによるテーブルテニス4D再構成のためのパイプラインとデータセット
- Authors: Nima Rahmanian, Daniel Kienzle, Thomas Gossard, Dvij Kalaria, Rainer Lienhart, Shankar Sastry,
- Abstract要約: 大規模な高忠実度テーブルテニスデータセットであるTT4Dを提案する。
再建されたシングルを1400ドル以上で提供し、モノラルな放送ビデオからゲームプレイを倍増させる。
このリッチなデータは、仮想リプレイ、詳細なプレイヤー分析、ロボット学習のための新しい基盤を提供する。
- 参考スコア(独自算出の注目度): 20.74832764427194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TT4D, a large-scale, high-fidelity table tennis dataset. It provides $140+$ hours of reconstructed singles and doubles gameplay from monocular broadcast videos, featuring multimodal annotations like high-quality camera calibrations, precise 3D ball positions, ball spin, time segmentation, and 3D human meshes over time. This rich data provides a new foundation for virtual replay, in-depth player analysis, and robot learning. The dataset's combination of scale and precision is achieved through a novel reconstruction pipeline. Prior methods first partition a game sequence into individual shot segments based on the 2D ball track, and only then attempt reconstruction. However, 2D-based time segmentation collapses under occlusion and varied camera viewpoints, preventing reliable reconstruction. We invert this paradigm by first lifting the entire unsegmented 2D ball track to 3D through a learned lifting network. This 3D trajectory then allows us to reliably perform time segmentation. The learned lifting network also infers the ball's spin, handles unreliable ball detections, and successfully reconstructs the ball trajectory in cases of high occlusion. This lift-first design is necessary, as our pipeline is the only method capable of reconstructing table tennis gameplay from general-view broadcast monocular videos. We demonstrate the dataset's fidelity through two downstream tasks: estimating the racket's pose \& velocity at impact, and training a generative model of competitive rallies.
- Abstract(参考訳): 大規模な高忠実度テーブルテニスデータセットであるTT4Dを提案する。
40ドル(約1万4000円)以上で、モノクロ放送ビデオのゲームプレイを倍増させ、高品質のカメラキャリブレーション、正確な3Dボールの位置、ボールスピン、タイムセグメンテーション、そして3D人間のメッシュといったマルチモーダルなアノテーションを備えている。
このリッチなデータは、仮想リプレイ、詳細なプレイヤー分析、ロボット学習のための新しい基盤を提供する。
データセットのスケールと精度の組み合わせは、新しい再構築パイプラインを通じて達成される。
先行手法は、まず2Dボールトラックに基づいて、ゲームシーケンスを個々のショットセグメントに分割し、次に再構成を試みる。
しかし、2Dベースの時間分割は、隠蔽下で崩壊し、様々なカメラ視点が崩壊し、信頼性の高い再構成が防止される。
我々はこのパラダイムを、学習したリフトネットワークを通じて、まず、未分割の2Dボールトラック全体を3Dに持ち上げることで、逆転する。
この3次元軌道は時間分割を確実に行うことができる。
学習したリフトネットワークは、ボールのスピンを推測し、信頼できないボール検出を処理し、高い閉塞の場合のボール軌跡の再構築に成功した。
このリフトファースト設計は、汎用放送モノクロビデオからテーブルテニスゲームプレイを再構築できる唯一のパイプラインであるため、必要である。
2つの下流タスクによってデータセットの忠実度を実証する:ラケットの姿勢と衝突時の速度を推定し、競合するラリーの生成モデルをトレーニングする。
関連論文リスト
- Mesh4D: 4D Mesh Reconstruction and Tracking from Monocular Video [81.44600627066747]
Mesh4Dはモノクル4Dメッシュ再構成のためのフィードフォワードモデルである。
私たちの重要な貢献は、単一のパスでアニメーションシーケンス全体をエンコードするコンパクトな潜在空間です。
提案手法は, 3次元形状と変形を再現する上で, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-01-08T18:59:56Z) - Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation [32.884975524869084]
本稿では,この問題をフロントエンド認識タスクとバックエンド2D-to-3Dアップリフトタスクに分割する新しい2段階パイプラインを提案する。
ボール検出器とテーブルキーポイント検出器を組み合わせることにより,概念実証法を実用的で堅牢で高性能なエンド・ツー・エンド・エンド・アプリケーションに変換する。
論文 参考訳(メタデータ) (2025-11-25T12:25:20Z) - C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - SoccerNet-v3D: Leveraging Sports Broadcast Replays for 3D Scene Understanding [16.278222277579655]
サッカー放送解析における3次元シーン理解のために設計された2つのデータセットであるサッカーネット-v3DとISSIA-3Dを紹介する。
これらのデータセットは、フィールドラインベースのカメラキャリブレーションとマルチビュー同期を組み込むことで、 SoccerNet-v3 と ISSIA を拡張している。
本研究では, 接地トラス2Dボールアノテーションの三角測量に基づいて, モノラルな3Dボール位置決めタスクを提案する。
論文 参考訳(メタデータ) (2025-04-14T11:15:13Z) - TT3D: Table Tennis 3D Reconstruction [11.84899291358663]
本稿では,オンライン卓球記録から正確な3次元球軌道を再構築するための新しい手法を提案する。
本手法は, ボールの飛来軌道の再投射誤差を最小限に抑えるバウンス状態を特定するために, ボールの運動の基盤となる物理を利用する。
我々のアプローチの重要な利点は、人間のポーズ推定やラケット追跡に頼ることなく、ボールスピンを推論できることである。
論文 参考訳(メタデータ) (2025-04-14T09:37:47Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - Neural Network-Based Tracking and 3D Reconstruction of Baseball Pitch Trajectories from Single-View 2D Video [0.0]
本稿では,2次元映像から3次元座標まで,野球球の軌跡の追跡と再構成のためのニューラルネットワークによるアプローチを提案する。
実験結果から,本手法は2次元入力から3次元軌跡を復元する際の精度が高いことが示された。
論文 参考訳(メタデータ) (2024-05-25T16:17:10Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。