論文の概要: Temporal vs. Spatial: Comparing DINOv3 and V-JEPA2 Feature Representations for Video Action Analysis
- arxiv url: http://arxiv.org/abs/2509.21595v1
- Date: Thu, 25 Sep 2025 21:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.020453
- Title: Temporal vs. Spatial: Comparing DINOv3 and V-JEPA2 Feature Representations for Video Action Analysis
- Title(参考訳): 時間対空間:ビデオ行動解析のためのDINOv3とV-JEPA2特徴表現の比較
- Authors: Sai Varun Kodathala, Rakesh Vunnam,
- Abstract要約: DINOv3 は空間的特徴抽出によってフレームを独立に処理し、V-JEPA2 はビデオシーケンス間の共同時間モデリングを採用している。
UCFスポーツデータセットにおいて,分類精度,クラスタリング性能,クラス内整合性,クラス間識別など,複数の次元による特徴量の検討を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a comprehensive comparative analysis of two prominent self-supervised learning architectures for video action recognition: DINOv3, which processes frames independently through spatial feature extraction, and V-JEPA2, which employs joint temporal modeling across video sequences. We evaluate both approaches on the UCF Sports dataset, examining feature quality through multiple dimensions including classification accuracy, clustering performance, intra-class consistency, and inter-class discrimination. Our analysis reveals fundamental architectural trade-offs: DINOv3 achieves superior clustering performance (Silhouette score: 0.31 vs 0.21) and demonstrates exceptional discrimination capability (6.16x separation ratio) particularly for pose-identifiable actions, while V-JEPA2 exhibits consistent reliability across all action types with significantly lower performance variance (0.094 vs 0.288). Through action-specific evaluation, we identify that DINOv3's spatial processing architecture excels at static pose recognition but shows degraded performance on motion-dependent actions, whereas V-JEPA2's temporal modeling provides balanced representation quality across diverse action categories. These findings contribute to the understanding of architectural design choices in video analysis systems and provide empirical guidance for selecting appropriate feature extraction methods based on task requirements and reliability constraints.
- Abstract(参考訳): 本研究では、空間的特徴抽出によってフレームを独立に処理するDINOv3と、ビデオシーケンス間の共同時間モデルを用いたV-JEPA2という、2つの著名な自己教師型学習アーキテクチャの包括的比較分析を行った。
UCFスポーツデータセットにおいて,分類精度,クラスタリング性能,クラス内整合性,クラス間識別など,複数の次元による特徴量の検討を行った。
DINOv3は優れたクラスタリング性能(シルエットスコア0.31 vs 0.21)を達成し、特にポーズ識別可能なアクションに対して例外的な識別能力(6.16倍の分離率)を示す一方、V-JEPA2はパフォーマンスのばらつきが著しく低いすべてのアクションタイプに対して一貫した信頼性を示す(0.094 vs 0.288)。
動作特異的評価により、DINOv3の空間処理アーキテクチャは静的ポーズ認識において優れるが、動作に依存した動作における劣化性能を示すのに対し、V-JEPA2の時間モデリングは多様な動作カテゴリ間でバランスの取れた表現品質を提供する。
これらの知見は,映像解析システムにおける設計選択の理解に寄与し,課題要件と信頼性制約に基づいて適切な特徴抽出方法を選択するための実証的ガイダンスを提供する。
関連論文リスト
- Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。
本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-25T11:50:23Z) - Saliency-Motion Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation [8.912201177914858]
Saliency-Motion Guided Trunk-Collateral Network (SMTC-Net)
動き適応型ビデオオブジェクトセグメンテーション(UVOS)のための新しいTrunk-Collateral構造を提案する。
SMTC-Netは3つのUVOSデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-04-08T11:02:14Z) - Deep Content Understanding Toward Entity and Aspect Target Sentiment Analysis on Foundation Models [0.8602553195689513]
Entity-Aspect Sentiment Triplet extract (EASTE)は、Aspect-Based Sentiment Analysisタスクである。
本研究は,EASTEタスクにおける高性能化を目標とし,モデルサイズ,タイプ,適応技術がタスクパフォーマンスに与える影響について検討する。
最終的には、複雑な感情分析における詳細な洞察と最先端の成果を提供する。
論文 参考訳(メタデータ) (2024-07-04T16:48:14Z) - Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
複数のバックボーンの集約表現から1つのバックボーンモデルへの知識の蒸留が,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - Aligning in a Compact Space: Contrastive Knowledge Distillation between Heterogeneous Architectures [4.119589507611071]
本稿では,低周波成分を用いたコントラスト知識蒸留(Contrastive Knowledge Distillation, LFCC)フレームワークを提案する。
具体的には、教師モデルと学生モデルの両方から中間特徴の低周波成分を抽出するために、マルチスケールの低域通過フィルタを設計する。
本稿では,ImageNet-1K と CIFAR-100 のベンチマークにおいて,LFCC が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-05-28T18:44:42Z) - Collaboratively Self-supervised Video Representation Learning for Action Recognition [54.92120002380786]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,複数の人気ビデオデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。