論文の概要: Depth-Wise Representation Development Under Blockwise Self-Supervised Learning for Video Vision Transformers
- arxiv url: http://arxiv.org/abs/2601.09040v1
- Date: Wed, 14 Jan 2026 00:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.200899
- Title: Depth-Wise Representation Development Under Blockwise Self-Supervised Learning for Video Vision Transformers
- Title(参考訳): ビデオビジョン変換器のブロックワイズ自己監督学習における奥行き表現開発
- Authors: Jonas Römer, Timo Dickscheid,
- Abstract要約: 我々は、エンコーダによるマスク付き自動符号化ビデオビジョン変換器にブロックワイズ学習を適用した。
我々は,深さ方向の陰極性,ブロック間類似性,パッチレベルの診断を解析する。
これらの結果から, 残差への寄与として, 遅延ブロック飽和と界面形成が示唆された。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end backpropagation couples all layers through a global error signal, enabling coordinated learning but requiring long-range credit assignment. Motivated by recent progress in blockwise self-supervised learning (BWSSL), we ask whether masked video transformers can be trained without end-to-end backpropagation. Applying BWSSL to masked video modeling remains relatively underexplored and must handle spatiotemporal context and long-range temporal structure. More broadly, analyses that compare BWSSL and end-to-end training in terms of learning dynamics and depth-wise representation development remain sparse. We apply blockwise learning to a masked autoencoding video vision transformer by partitioning the encoder into blocks, each of which is optimized with a local masked reconstruction loss. Across model sizes and partition granularities, training converges and yields representations close to matched end-to-end baselines under linear-probe and retrieval proxies. In order to compare intermediate representations, we analyze depth-wise decodability, inter-block similarity, and patch-level diagnostics. Blockwise training exposes higher-level structure earlier, while later blocks saturate and operate in a more geometry-preserving regime. It can also induce token-level shifts consistent with stronger early mixing that pooled metrics can miss. These findings point to late-block saturation and interface formation as contributors to the remaining gap.
- Abstract(参考訳): エンドツーエンドのバックプロパゲーションは、グローバルエラー信号を通じてすべてのレイヤを結合する。
近年のブロックワイド自己教師学習(BWSSL)の進歩により,マスク付きビデオトランスフォーマーをエンドツーエンドのバックプロパゲーションなしでトレーニングできるかどうかを問う。
マスク付きビデオモデリングにBWSSLを適用する場合、時間空間と長距離時間構造を扱う必要がある。
より広義には、BWSSLとエンドツーエンドのトレーニングを学習力学と深度表現開発の観点から比較する分析は、いまだに不十分である。
符号化器をブロックに分割することで、マスク付き自動符号化ビデオビジョン変換器にブロックワイズ学習を適用し、それぞれが局所的なマスク付き再構成損失に最適化される。
モデルのサイズとパーティションの粒度によって、トレーニングは収束し、線形プローブおよび検索プロキシの下で一致したエンドツーエンドベースラインに近い表現を得る。
中間表現を比較するために, 深さ方向の陰極性, ブロック間類似性, パッチレベルの診断を解析する。
ブロックワイズトレーニングは、より高レベルな構造を公開する一方、後続のブロックは飽和し、より幾何学的に保存された状態で動作する。
また、プールされたメトリクスが見逃す可能性のある、より強力な早期混合と整合したトークンレベルのシフトを引き起こすこともできる。
これらの結果から, 残差への寄与として, 遅延ブロック飽和と界面形成が示唆された。
関連論文リスト
- Block-Recurrent Dynamics in Vision Transformers [42.261020313952976]
我々は、トレーニングされたViTは、元の$L$ブロックの計算を、繰り返し適用された$k ll L$ブロックのみを使用して正確に書き直せるようにブロック再帰的な深さ構造を許容していると主張している。
DINOv2 ImageNet-1kの線形プローブ精度を同等の計算コストで2ブロックで回収するために、Raptorモデルを訓練する。
論文 参考訳(メタデータ) (2025-12-23T00:18:23Z) - MAN++: Scaling Momentum Auxiliary Network for Supervised Local Learning in Vision Tasks [10.200277827846076]
ローカル学習を教師するMOmentum Auxiliary Network++ (MAN++) を提案する。
MAN++は、GPUメモリ使用量を大幅に削減しつつ、エンドツーエンドのトレーニングに匹敵するパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-07-22T06:50:19Z) - DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation [11.910667302899638]
DiffusionBlocksは、トランスフォーマーベースのネットワークを独立したトレーニング可能なブロックに変換するための、原則化されたフレームワークである。
本実験は,DiffusionBlocksトレーニングがエンドツーエンドトレーニングの性能に合致することを示すものである。
論文 参考訳(メタデータ) (2025-06-17T05:44:18Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Unlocking Deep Learning: A BP-Free Approach for Parallel Block-Wise
Training of Neural Networks [9.718519843862937]
ブロックワイズBPフリー(BWBPF)ニューラルネットワークを導入し、局所誤差信号を利用してサブニューラルネットワークを個別に最適化する。
実験結果から,VGGとResNetのバラツキに対して,トランスファー可能な疎結合アーキテクチャを同定できることがわかった。
論文 参考訳(メタデータ) (2023-12-20T08:02:33Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval [83.56444443849679]
本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
論文 参考訳(メタデータ) (2021-01-04T08:11:39Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。