論文の概要: TrAction: Action Recognition with Sparse Trajectories
- arxiv url: http://arxiv.org/abs/2606.03490v1
- Date: Tue, 02 Jun 2026 11:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.740895
- Title: TrAction: Action Recognition with Sparse Trajectories
- Title(参考訳): TrAction:スパース軌道を用いた行動認識
- Authors: Jan F. Meier, Felix B. Mueller, Alexander Ecker, Timo Lüddecke,
- Abstract要約: 本稿では, 疎点軌道という, 構成によるバイアスをほとんど含まない, 効率的な入力モダリティについて検討する。
2.5次元軌跡認識のための単純なトランスフォーマーアーキテクチャをマスク付き軌道事前学習とともに開発する。
EPIC-Kitchens-100では,Something V2では45%,EPIC-Kitchens-100では54%,時間反転感度ではV-JEPAを上回った。
- 参考スコア(独自算出の注目度): 43.37305832944302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern action recognition models operate on memory- and compute-intensive dense RGB video volumes and frequently exploit appearance and background shortcuts, for example, predicting actions from objects or scenes instead of characteristic motion. We investigate an efficient alternative input modality that is largely free of such biases by construction: sparse point trajectories. To this end, we develop a simple transformer architecture for 2.5D trajectory-based recognition together with a masked-trajectory pretraining, which we show to substantially improve downstream action recognition accuracy. Despite using only a fraction of the dense RGB input, our method reaches 45% top-1 on Something-Something V2 and 54% on EPIC-Kitchens-100, and surpasses V-JEPA on time-reversal sensitivity. More importantly, we find trajectory features to be complementary to state-of-the-art appearance-based features. Fusing our pretrained model with DINOv2 and V-JEPA 2 improves top-1 accuracy on Something-Something V2 by 8.7 and 1.6 points, respectively. Code: https://github.com/ecker-lab/TrAction
- Abstract(参考訳): 現代のアクション認識モデルは、メモリと計算集約的なRGBビデオボリュームで動作し、外見や背景ショートカットを頻繁に利用している。
本稿では, 疎点軌道という, 構成によるバイアスをほとんど含まない, 効率的な入力モダリティについて検討する。
そこで本研究では,2.5次元軌跡認識のための簡易なトランスフォーマアーキテクチャとマスク付き軌道事前学習を併用し,下流動作認識の精度を大幅に向上することを示す。
本手法は高密度RGB入力のごく一部しか使用していないが,Something V2では45%,EPIC-Kitchens-100では54%,時間反転感度ではV-JEPAを上回っている。
さらに重要なのは、トラジェクトリ機能が、最先端の外観ベースの機能と相補的であることだ。
DINOv2とV-JEPA2で事前訓練したモデルを使用することで、Something V2におけるトップ1の精度が8.7ポイント向上し、1.6ポイント向上する。
コード:https://github.com/ecker-lab/TrAction
関連論文リスト
- Surformer v1: Transformer-Based Surface Classification Using Tactile and Vision Features [1.124958340749622]
Surformer v1は、構造化された触覚特徴とResNet-50を介して抽出されたPCAによる視覚的埋め込みを用いて、表面分類のために設計されたトランスフォーマーベースのアーキテクチャである。
このモデルは、触覚固有のエンコーダとモーダルなアテンション層を統合し、視覚とタッチの間のリッチな相互作用を可能にする。
我々はSurformer v1とMultimodal CNNの両方を訓練し、特徴ベースと画像ベースのマルチモーダル学習が分類精度と計算効率に与える影響について検討した。
論文 参考訳(メタデータ) (2025-08-07T00:59:33Z) - An Efficient 3D Convolutional Neural Network with Channel-wise, Spatial-grouped, and Temporal Convolutions [3.798710743290466]
本稿では,ビデオ行動認識のためのシンプルで効率的な3次元畳み込みニューラルネットワークを提案する。
提案するネットワークの性能と効率を,複数のビデオ行動認識データセット上で評価する。
論文 参考訳(メタデータ) (2025-03-02T08:47:06Z) - DT-JRD: Deep Transformer based Just Recognizable Difference Prediction Model for Video Coding for Machines [48.07705666485972]
Just Recognizable difference (JRD) は、機械ビジョンによって検出される最小の視覚差を表す。
本稿では,Deep Transformer-based JRD (DT-JRD) prediction model for Video Coding for Machines (VCM)を提案する。
正確に予測されたJRDは、機械作業の精度を維持しながら、符号化ビットレートを低減できる。
論文 参考訳(メタデータ) (2024-11-14T09:34:36Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - CNN-transformer mixed model for object detection [3.5897534810405403]
本稿では,トランスを用いた畳み込みモジュールを提案する。
CNNが抽出した詳細特徴と変換器が抽出したグローバル特徴とを融合させることにより、モデルの認識精度を向上させることを目的とする。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用したRCNN[4]よりも4.6向上した。
論文 参考訳(メタデータ) (2022-12-13T16:35:35Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。