論文の概要: Tetris: Tile-level Sampling for Efficient and High-Fidelity Video Object Tracking
- arxiv url: http://arxiv.org/abs/2605.25538v2
- Date: Tue, 26 May 2026 01:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.101209
- Title: Tetris: Tile-level Sampling for Efficient and High-Fidelity Video Object Tracking
- Title(参考訳): テトリス:高精細度高精細度ビデオオブジェクト追跡のためのタイルレベルサンプリング
- Authors: Chanwut Kittivorawong, Alena Chao, Charlie Si, Alvin Cheung,
- Abstract要約: Tetrisは、動画をタイルベースのポリオミノデータモデルに分解するトラック素材抽出システムである。
7つの静止ビデオデータセットを通して、Tetrisは全フレーム、全フレーム参照パイプラインの精度損失を5%の範囲内に保持する。
- 参考スコア(独自算出の注目度): 7.146068701431452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Track materialization converts raw video into reusable object tracks that downstream queries can run against without rerunning tracking, but extracting those tracks efficiently and with high fidelity remains expensive. Prior systems reduce cost through temporal frame sampling, erasing the inter-frame motion that fine-grained tracking requires. In stationary video, however, large portions of each frame contain no objects of interest, and the remaining regions tolerate different sampling rates. We present Tetris, a track-extraction system that decomposes videos into a tile-based polyomino data model, enabling fine-grained spatiotemporal pruning that reduces detector calls with minimal fidelity loss. Tetris runs three operators upstream of the user-provided detector: a classifier identifies relevant tiles and groups them into polyominoes, an integer linear program (ILP) prunes redundant polyominoes under a user-specified accuracy constraint, and a packer assembles the survivors into canvases that minimize detector calls. Across 7 stationary-video datasets, Tetris stays within a 5% tracking accuracy loss of a full-frame, every-frame reference pipeline, whereas prior systems exceed this bound on 3 of the 7 datasets. At this 5% bound, Tetris achieves up to 17.4x higher throughput than prior systems and up to 68.8x higher than the reference pipeline. The project page is at https://tetris-db.github.io .
- Abstract(参考訳): トラックの物質化は、生のビデオを再実行せずにダウンストリームクエリが実行可能な再利用可能なオブジェクトトラックに変換するが、それらのトラックを効率よく抽出し、高い忠実度で抽出することは高価である。
従来のシステムは、時間的フレームサンプリングによってコストを削減し、きめ細かいトラッキングを必要とするフレーム間の動きを消去する。
しかし、静止ビデオでは、各フレームの大部分が興味の対象を含まないため、残りの領域は異なるサンプリングレートを許容する。
本稿では,ビデオからタイルベースのポリオミノデータモデルに分解するトラック抽出システムTetrisについて述べる。
分類器は関連するタイルを識別してポリオミノに分類し、整数線形プログラム(ILP)はユーザ指定の精度制約の下で冗長なポリオミノをプルーネ化し、パッカーは生存者をキャンバスに組み立て、検出器呼び出しを最小化する。
7つの静止ビデオデータセット全体において、Tetrisは全フレーム、全フレーム参照パイプラインの精度損失の5%以内に留まっている。
この5%のバウンドでは、テトリスは以前のシステムよりも最大17.4倍、参照パイプラインより最大68.8倍高いスループットを達成する。
プロジェクトページはhttps://tetris-db.github.io にある。
関連論文リスト
- TAPNext++: What's Next for Tracking Any Point (TAP)? [58.6925880906723]
本稿では,低メモリとアーキテクチャの計算フットプリントを保ちながら,桁数桁長の点を追跡するモデルを提案する。
再検出性能が現在の文献の盲点であることを強調し,新しいメトリクスであるRe-detection Average Jaccardを導入する。
複数のベンチマークにおいて,再帰型トランスフォーマーがポイントトラッキングのために大幅に改善され,新たな最先端のモデルが設定できることが実証された。
論文 参考訳(メタデータ) (2026-04-12T11:02:13Z) - Offline-Poly: A Polyhedral Framework For Offline 3D Multi-Object Tracking [11.527022085205012]
オフライン3D MOTは、4D自動ラベルプロセスの重要なコンポーネントである。
トラッキング中心の設計に基づく汎用オフライン3DMOT法であるOffline-Polyを提案する。
論文 参考訳(メタデータ) (2026-02-14T13:34:21Z) - Video Individual Counting and Tracking from Moving Drones: A Benchmark and Methods [51.91154554622608]
moveDroneCrowd++は、移動中のドローンが捉えた、密集した群衆のカウントと追跡のための、最大のビデオレベルのデータセットである。
また,GD3Aを提案する。GD3Aは,特定位置化を回避する密度マップに基づくビデオ個人カウント手法である。
実験結果から,本手法は群集や複雑な運動下での既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-01-18T17:17:31Z) - SDG-Track: A Heterogeneous Observer-Follower Framework for High-Resolution UAV Tracking on Embedded Platforms [11.029096488950414]
エッジデバイス上での小型無人航空機(UAV)のリアルタイム追跡は、根本的な解像度と速度の衝突に直面している。
本稿では,この競合を解消するためにObserver-Followerアーキテクチャを採用するスパース検出ガイドトラッカーを提案する。
地上対空追跡実験では、SDG-Trackはフレーム毎の検出精度の97.2%を維持しながら35.1 FPSシステムスループットを達成した。
論文 参考訳(メタデータ) (2025-12-04T15:11:43Z) - ViFiT: Reconstructing Vision Trajectories from IMU and Wi-Fi Fine Time
Measurements [6.632056181867312]
携帯電話データ(IMUおよびファインタイム計測)から視界境界ボックス軌道を再構成するトランスフォーマーベースモデルViFiTを提案する。
ViFiTは0.65のMRFRを達成し、LSTM-Decoderアーキテクチャにおけるクロスモーダル再構築の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2023-10-04T20:05:40Z) - Unsupervised Green Object Tracker (GOT) without Offline Pre-training [35.60210259607753]
グリーン・オブジェクト・トラッカー(GOT)と呼ばれる新しい単一物体追跡手法を提案する。
GOTは、最先端の教師なしトラッカーと競合する追跡精度を提供する。
GOTは小さなモデルサイズ(3kパラメータ)と低い推論複雑性(フレームあたり約58万FLOP)を持つ。
論文 参考訳(メタデータ) (2023-09-16T19:00:56Z) - ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every
Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。
3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文 参考訳(メタデータ) (2023-03-27T15:35:21Z) - ByteTrack: Multi-Object Tracking by Associating Every Detection Box [51.93588012109943]
マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
ほとんどの方法は、スコアがしきい値よりも高い検出ボックスを連想させることでアイデンティティを得る。
本稿では,BYTEと呼ばれるシンプルで効果的で汎用的なアソシエーション手法を提案する。
論文 参考訳(メタデータ) (2021-10-13T17:01:26Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。