論文の概要: Analysis of Attention in Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2504.10317v1
- Date: Mon, 14 Apr 2025 15:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:24.181216
- Title: Analysis of Attention in Video Diffusion Transformers
- Title(参考訳): ビデオ拡散変圧器の注意解析
- Authors: Yuxin Wen, Jim Wu, Ajay Jain, Tom Goldstein, Ashwinee Panda,
- Abstract要約: ビデオ拡散変換器(VDiT)における注意の3つの重要な特性を同定する。
異なるVDiT間の注意パターンは、異なるプロンプト間で類似した構造を示す。
提案手法は全VDiTに対して有効ではない。
VDiTにおける注意シンクの最初の研究を行い、それらを言語モデルにおける注意シンクと比較し、対比する。
- 参考スコア(独自算出の注目度): 61.752109570206535
- License:
- Abstract: We conduct an in-depth analysis of attention in video diffusion transformers (VDiTs) and report a number of novel findings. We identify three key properties of attention in VDiTs: Structure, Sparsity, and Sinks. Structure: We observe that attention patterns across different VDiTs exhibit similar structure across different prompts, and that we can make use of the similarity of attention patterns to unlock video editing via self-attention map transfer. Sparse: We study attention sparsity in VDiTs, finding that proposed sparsity methods do not work for all VDiTs, because some layers that are seemingly sparse cannot be sparsified. Sinks: We make the first study of attention sinks in VDiTs, comparing and contrasting them to attention sinks in language models. We propose a number of future directions that can make use of our insights to improve the efficiency-quality Pareto frontier for VDiTs.
- Abstract(参考訳): ビデオ拡散変換器(VDiT)における注意の詳細な分析を行い,多くの新しい知見を報告する。
VDiTの3つの重要な特徴は、構造、スパーシティ、シンクである。
構造: 異なるVDiT間のアテンションパターンは、異なるプロンプト間で類似した構造を示し、アテンションパターンの類似性を利用して、自己アテンションマップ転送によるビデオ編集をアンロックする。
Sparse: VDiTのスペーサ性について検討し、スペーサのように見える層はスペーサ化できないため、提案したスペーサ性法がすべてのVDiTに有効でないことを発見した。
Sinks: VDiTの注意シンクを初めて研究し、言語モデルの注意シンクと比較し、対比します。
我々は,VDiTの効率性向上のために,我々の洞察を活用できる将来的な方向をいくつか提案する。
関連論文リスト
- Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Explainable Multi-Camera 3D Object Detection with Transformer-Based
Saliency Maps [0.0]
ビジョントランスフォーマー(ViT)は、3Dオブジェクト検出を含む様々なコンピュータビジョンタスクにおいて最先端の結果を得た。
エンドツーエンドの実装により、ViTの説明がより簡単になるため、安全クリティカルなアプリケーションにViTをデプロイする上での課題になる可能性がある。
本稿では,3次元物体検出に使用される複数のカメラ入力を持つDETRライクなViTのサリエンシマップを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:03:12Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。