論文の概要: V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2603.14482v1
- Date: Sun, 15 Mar 2026 17:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.836017
- Title: V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning
- Title(参考訳): V-JEPA 2.1:ビデオ・セルフ・スーパーバイザード・ラーニングにおける難読化機能
- Authors: Lorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes,
- Abstract要約: V-JEPA 2.1は、画像とビデオの両方の濃密で高品質な視覚表現を学習する自己教師型モデルのファミリーである。
V-JEPA 2.1は、密集した視覚的理解と世界モデリングにおける最先端の進歩を示す。
- 参考スコア(独自算出の注目度): 46.89986408533846
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present V-JEPA 2.1, a family of self-supervised models that learn dense, high-quality visual representations for both images and videos while retaining strong global scene understanding. The approach combines four key components. First, a dense predictive loss uses a masking-based objective in which both visible and masked tokens contribute to the training signal, encouraging explicit spatial and temporal grounding. Second, deep self-supervision applies the self-supervised objective hierarchically across multiple intermediate encoder layers to improve representation quality. Third, multi-modal tokenizers enable unified training across images and videos. Finally, the model benefits from effective scaling in both model capacity and training data. Together, these design choices produce representations that are spatially structured, semantically coherent, and temporally consistent. Empirically, V-JEPA 2.1 achieves state-of-the-art performance on several challenging benchmarks, including 7.71 mAP on Ego4D for short-term object-interaction anticipation and 40.8 Recall@5 on EPIC-KITCHENS for high-level action anticipation, as well as a 20-point improvement in real-robot grasping success rate over V-JEPA-2 AC. The model also demonstrates strong performance in robotic navigation (5.687 ATE on TartanDrive), depth estimation (0.307 RMSE on NYUv2 with a linear probe), and global recognition (77.7 on Something-Something-V2). These results show that V-JEPA 2.1 significantly advances the state of the art in dense visual understanding and world modeling.
- Abstract(参考訳): V-JEPA 2.1は,映像と映像の濃密で高品質な視覚表現を学習し,世界的シーン理解を強く維持する自己教師型モデルである。
このアプローチは4つの重要なコンポーネントを組み合わせる。
まず、密集した予測損失は、目に見えるトークンとマスクされたトークンの両方がトレーニング信号に寄与し、明示的な空間的および時間的グラウンドを奨励するマスクベースの目的を使用する。
第二に、自己監督対象を複数の中間エンコーダ層に階層的に適用し、表現品質を向上させる。
第3に、マルチモーダル・トークンーザは、画像とビデオ間の統一的なトレーニングを可能にする。
最後に、モデルキャパシティとトレーニングデータの両方の効果的なスケーリングの恩恵を受ける。
これらのデザインの選択は、空間的に構造化され、意味的に一貫性があり、時間的に一貫性のある表現を生成する。
実証的には、V-JEPA 2.1は、Ego4Dの7.71 mAP、EPIC-KITCHENSの40.8 Recall@5、V-JEPA-2 ACの20ポイント改善など、いくつかの挑戦的なベンチマークで最先端のパフォーマンスを実現している。
このモデルはまた、ロボットナビゲーション(TartanDriveでは5.687 ATE)、深さ推定(線形プローブでニューヨークUv2では0.307 RMSE)、グローバル認識(Something-V2では77.7)で強い性能を示す。
これらの結果から, V-JEPA 2.1は高密度視覚理解と世界モデリングの最先端を著しく向上させることが示された。
関連論文リスト
- Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10 [0.0]
この原稿では、YOLOv10アーキテクチャを基盤として、水中オブジェクト検出のための合理化されながら堅牢なフレームワークを紹介している。
提案手法は,画像品質向上のためのマルチステージ適応拡張モジュールと,マルチスケール特徴表現を強化するためのデュアルプールシーケンスアテンション機構を統合した。
論文 参考訳(メタデータ) (2026-03-04T07:39:57Z) - BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model [44.72361174037017]
VLA(Vision-Language-Action)モデルは、VLM(Large Vision Language Models)を利用して、命令と視覚入力を共同で解釈することで、大きなブレークスルーを達成した。
視覚トークンの大幅な増加、特にマルチビュー入力は、リアルタイムロボット操作に深刻な課題をもたらす。
VLAモデルに特化して設計された動的トークンプルーニングフレームワークであるBFA++を提案する。
論文 参考訳(メタデータ) (2026-02-24T05:31:52Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - Light-Weight Cross-Modal Enhancement Method with Benchmark Construction for UAV-based Open-Vocabulary Object Detection [6.443926939309045]
我々は,データセット構築とモデル革新を組み合わせた完全なUAV指向ソリューションを提案する。
まず, アノテーションの冗長性, 不整合性, 曖昧性を効率的に解決する改良されたUAV-Labelエンジンを設計する。
第2に,クロスアテンション,アダプティブ・ゲーティング,グローバルFILM変調を統合した高機能なデュアルパス融合設計であるクロスアテンション・ゲーテッド・エンハンスメント(CAGE)モジュールを導入する。
論文 参考訳(メタデータ) (2025-09-07T10:59:02Z) - EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - EgoPoseFormer: A Simple Baseline for Stereo Egocentric 3D Human Pose Estimation [15.590340765703893]
ステレオ・エゴセントリックな人物ポーズ推定のためのトランスフォーマーモデルであるEgoPoseFormerを提案する。
本手法は,ヘッドマウントカメラの自己閉塞性や視野制限(FOV)による関節視認性を克服する主な課題を克服する。
本手法をステレオUnrealEgoデータセット上で評価し,従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2024-03-26T20:02:48Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。