論文の概要: Interpreting Video Representations with Spatio-Temporal Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2604.03919v1
- Date: Sun, 05 Apr 2026 01:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.83295
- Title: Interpreting Video Representations with Spatio-Temporal Sparse Autoencoders
- Title(参考訳): 時空間スパースオートエンコーダによる映像表現の解釈
- Authors: Atahan Dokme, Sriram Vishwanath,
- Abstract要約: 本稿では,ビデオ表現におけるSparseencoencoders(SAE)の最初の体系的研究について述べる。
標準SAEは解釈可能な単意味の特徴に分解されるが、時間的コヒーレンスを破壊する。
TopKの選択はフレーム間の不安定な特徴割り当てを生成し、自動相関を36%削減する。
- 参考スコア(独自算出の注目度): 3.3192479135000426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first systematic study of Sparse Autoencoders (SAEs) on video representations. Standard SAEs decompose video into interpretable, monosemantic features but destroy temporal coherence: hard TopK selection produces unstable feature assignments across frames, reducing autocorrelation by 36%. We propose spatio-temporal contrastive objectives and Matryoshka hierarchical grouping that recover and even exceed raw temporal coherence. The contrastive loss weight controls a tunable trade-off between reconstruction and temporal coherence. A systematic ablation on two backbones and two datasets shows that different configurations excel at different goals: reconstruction fidelity, temporal coherence, action discrimination, or interpretability. Contrastive SAE features improve action classification by +3.9% over raw features and text-video retrieval by up to 2.8xR@1. A cross-backbone analysis reveals that standard monosemanticity metrics contain a backbone-alignment artifact: both DINOv2 and VideoMAE produce equally monosemantic features under neutral (CLIP) similarity. Causal ablation confirms that contrastive training concentrates predictive signal into a small number of identifiable features.
- Abstract(参考訳): ビデオ表現におけるスパースオートエンコーダ(SAE)の最初の体系的研究について述べる。
標準SAEは、ビデオを解釈可能なモノセマンティックな特徴に分解するが、時間的コヒーレンスを破壊する: ハードなTopK選択はフレーム間で不安定な特徴割り当てを生成し、自動相関を36%削減する。
本研究では,時空間的コントラスト的目的と,時間的コヒーレンスを回復し,さらに超越するマトリオシカ階層的グループを提案する。
対照的な損失重みは、再構成と時間的コヒーレンスの間の調整可能なトレードオフを制御する。
2つのバックボーンと2つのデータセットの体系的アブレーションは、異なる構成が異なる目標 – 再構築忠実度、時間的一貫性、行動識別、解釈可能性 – で優れていることを示している。
対照的に、SAEの機能は、生の特徴よりも+3.9%、テキストビデオ検索は2.8xR@1に改善されている。
DINOv2とVideoMAEはどちらも、中立的(CLIP)類似性の下で等しくモノセマンティックな特徴を生成する。
因果的アブレーション(Causal ablation)は、コントラスト的トレーニングが予測信号を少数の特定可能な特徴に集中することを確認する。
関連論文リスト
- CVA: Context-aware Video-text Alignment for Video Temporal Grounding [16.546053936240362]
時間に敏感なビデオテキストアライメントを実現するための新しいフレームワークであるCVA(Context-aware Video-text Alignment)を提案する。
まず、意味的に無関係なコンテンツだけが混在することを保証する新しいデータ拡張戦略であるQCD(Query-aware Context Diversification)を提案する。
第二に、文脈不変境界識別(CBD)損失は、時間的境界の挑戦において意味的一貫性を強制する対照的な損失である。
第3に、窓付き自己注意と双方向交差を組み合わせた階層型アーキテクチャであるContext-enhanced Transformer (CTE)を導入する。
論文 参考訳(メタデータ) (2026-03-26T01:53:00Z) - Multimodal Quantitative Measures for Multiparty Behaviour Evaluation [6.709251546882382]
骨格運動データにおける多人数社会的行動の客観的評価のための統合的介入駆動型フレームワークを提案する。
3つの理論駆動摂動による計量感度の検証を行った。
混合効果分析により、予測可能な、共同非依存的なシフトが明らかになる。
論文 参考訳(メタデータ) (2025-08-01T13:46:12Z) - SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-07-18T12:35:46Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition [10.403751563214113]
本稿では, 比較時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、微細な動きパターンを探索する。
潜伏したデータ分布を明示的に活用するために、コントラスト学習に注意的特徴を用いて、クロスシーケンスセマンティックリレーションをモデル化する。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。