論文の概要: TRec: Egocentric Action Recognition using 2D Point Tracks
- arxiv url: http://arxiv.org/abs/2601.03667v2
- Date: Thu, 08 Jan 2026 06:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 15:04:17.532471
- Title: TRec: Egocentric Action Recognition using 2D Point Tracks
- Title(参考訳): TRec:2Dポイントトラックを用いたエゴセントリックな行動認識
- Authors: Dennis Holzmann, Sven Wachsmuth,
- Abstract要約: 本稿では,2Dポイントトラックを付加的な動きキューとして活用する,エゴセントリックな行動認識手法を提案する。
我々はCoTrackerを用いて、各ビデオを通してランダムに一組のポイントを追尾し、結果のトラジェクトリをTransformerベースの認識モデルへの入力として使用する。
実験結果から,2Dポイントトラックの統合は,運動情報のないトレーニングモデルと比較して連続的に性能を向上させることが確認された。
- 参考スコア(独自算出の注目度): 0.47745223151611654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach for egocentric action recognition that leverages 2D point tracks as an additional motion cue. While most existing methods rely on RGB appearance, human pose estimation, or their combination, our work demonstrates that tracking randomly sampled image points across video frames can substantially improve recognition accuracy. Unlike prior approaches, we do not detect hands, objects, or interaction regions. Instead, we employ CoTracker to follow a set of randomly initialized points through each video and use the resulting trajectories, together with the corresponding image frames, as input to a Transformer-based recognition model. Surprisingly, our method achieves notable gains even when only the initial frame and its associated point tracks are provided, without incorporating the full video sequence. Experimental results confirm that integrating 2D point tracks consistently enhances performance compared to the same model trained without motion information, highlighting their potential as a lightweight yet effective representation for egocentric action understanding.
- Abstract(参考訳): 本稿では,2Dポイントトラックを付加的な動きキューとして活用する,エゴセントリックな行動認識手法を提案する。
既存のほとんどの手法は、RGBの外観、人間のポーズ推定、あるいはそれらの組み合わせに依存しているが、ビデオフレーム間でランダムにサンプリングされた画像ポイントを追跡することにより、認識精度が大幅に向上することを示した。
従来のアプローチとは異なり、手やオブジェクト、インタラクション領域は検出できません。
代わりに、私たちはCoTrackerを使用して、各ビデオを通してランダムに初期化された一連の点を追尾し、結果の軌跡と対応する画像フレームをトランスフォーマーベースの認識モデルへの入力として使用する。
驚くべきことに,本手法は,全映像シーケンスを組み込まずに,初期フレームとその関連点トラックのみを提供しても顕著な利得が得られる。
実験結果から,2Dポイントトラックの統合は,運動情報なしで訓練したモデルと比較して一貫して性能を向上し,エゴセントリックな行動理解のための軽量かつ効果的な表現としての可能性を強調した。
関連論文リスト
- Repurposing Video Diffusion Transformers for Robust Point Tracking [35.486648006768256]
既存のメソッドは、フレームを独立して処理するResNetのような浅い畳み込みバックボーンに依存している。
ビデオトランスフォーマー(DiT)は本質的に、強力な点追跡能力を持ち、動的動作を頑健に扱う。
本研究は,ポイントトラッキングの有効かつ効率的な基盤として,ビデオDiT機能を検証する。
論文 参考訳(メタデータ) (2025-12-23T18:54:10Z) - Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition [36.662223760818584]
Trokensは、トラジェクトリポイントをアクション認識のための意味認識型リレーショナルトークンに変換する新しいアプローチである。
本研究では, 軌跡のヒストグラム(Histogram of Oriented Displacements, HoD)と, 複雑な行動パターンをモデル化するための軌跡間関係(inter-trajectory relationship)により, 軌道内力学を捉える運動モデリングフレームワークを開発した。
提案手法は,これらのトラジェクトリトークンとセマンティックな特徴を効果的に組み合わせて,動作情報による外観特徴の向上と,6つの多種多様なアクション認識ベンチマークにおける最先端性能の実現を実現する。
論文 参考訳(メタデータ) (2025-08-05T17:59:58Z) - SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - Fast Encoder-Based 3D from Casual Videos via Point Track Processing [22.563073026889324]
そこで我々は,カジュアルビデオから3D構造とカメラの位置を動的コンテンツから推定できる学習ベースのTracksTo4Dを提案する。
TracksTo4Dは、カジュアルなビデオのデータセットに基づいて教師なしの方法で訓練される。
実験により、TracksTo4Dは、最先端の手法に匹敵する精度で、基礎となるビデオの時間点雲とカメラの位置を再構築できることが示された。
論文 参考訳(メタデータ) (2024-04-10T15:37:00Z) - Solution for Point Tracking Task of ICCV 1st Perception Test Challenge 2023 [50.910598799408326]
Tracking Any Point (TAP) タスクは、ビデオを通じて任意の物理的表面を追跡する。
既存のいくつかのアプローチは、スムーズな運動軌跡を得るための時間的関係を考慮し、TAPを探索してきた。
我々は,静的カメラが撮影したビデオの静的点追跡の修正に焦点を当てた,信頼度の高い静的点付きTAP(TAPIR+)を提案する。
論文 参考訳(メタデータ) (2024-03-26T13:50:39Z) - Instance Tracking in 3D Scenes from Egocentric Videos [18.02107257369472]
AR/VRデバイスのようなエゴセントリックなセンサーは、人間とオブジェクトのインタラクションをキャプチャし、タスクアシストを提供する。
この機能は、エゴセントリックビデオ(IT3DEgo)の現実世界の3Dシーンのインスタンス追跡を必要とする
RGBと深度ビデオ、フレームごとのカメラポーズ、および2Dカメラと3Dワールド座標の両方におけるインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2023-12-07T08:18:35Z) - An Effective Motion-Centric Paradigm for 3D Single Object Tracking in
Point Clouds [50.19288542498838]
LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。
現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。
我々は新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。
論文 参考訳(メタデータ) (2023-03-21T17:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。