論文の概要: Understanding Video Transformers via Universal Concept Discovery
- arxiv url: http://arxiv.org/abs/2401.10831v1
- Date: Fri, 19 Jan 2024 17:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:10:21.239754
- Title: Understanding Video Transformers via Universal Concept Discovery
- Title(参考訳): ユニバーサルコンセプト発見によるビデオトランスフォーマーの理解
- Authors: Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos
G. Derpanis, Pavel Tokmakov
- Abstract要約: 我々は,自動で発見される高レベルな時間的概念に基づいて,トランスフォーマーの意思決定プロセスを説明する。
本稿では,VTCD(Video Transformer Concept Discovery)アルゴリズムについて紹介する。
結果として生じる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時間的推論機構とオブジェクト中心の表現を明らかにする。
- 参考スコア(独自算出の注目度): 47.54441046510694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of concept-based interpretability of
transformer representations for videos. Concretely, we seek to explain the
decision-making process of video transformers based on high-level,
spatiotemporal concepts that are automatically discovered. Prior research on
concept-based interpretability has concentrated solely on image-level tasks.
Comparatively, video models deal with the added temporal dimension, increasing
complexity and posing challenges in identifying dynamic concepts over time. In
this work, we systematically address these challenges by introducing the first
Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose
an efficient approach for unsupervised identification of units of video
transformer representations - concepts, and ranking their importance to the
output of a model. The resulting concepts are highly interpretable, revealing
spatio-temporal reasoning mechanisms and object-centric representations in
unstructured video models. Performing this analysis jointly over a diverse set
of supervised and self-supervised representations, we discover that some of
these mechanism are universal in video transformers. Finally, we demonstrate
that VTCDcan be used to improve model performance for fine-grained tasks.
- Abstract(参考訳): 本稿では,映像におけるトランスフォーマティブ表現の概念に基づく解釈可能性の問題について検討する。
具体的には、自動で検出される高レベルな時空間概念に基づいて、ビデオトランスフォーマーの決定過程を説明する。
概念に基づく解釈可能性に関する以前の研究は、画像レベルのタスクのみに集中していた。
相対的に、ビデオモデルは時間的次元の追加、複雑さの増大、時間とともに動的な概念を特定する上での課題を扱います。
本稿では,ビデオトランスフォーマー概念発見(VTCD)アルゴリズムを導入することで,これらの課題を体系的に解決する。
そこで本研究では,ビデオトランスフォーマー表現の単位を教師なしで識別する手法を提案し,その重要性をモデルの出力にランク付けする。
結果として得られる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時空間推論機構とオブジェクト中心表現を明らかにする。
この解析を様々な教師付き表現と自己教師付き表現で共同で行うことで,ビデオトランスフォーマーにおいて,これらのメカニズムのいくつかが普遍的であることを見出した。
最後に,VTCDは細粒度タスクのモデル性能向上に有効であることを示す。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - Understanding Video Transformers for Segmentation: A Survey of
Application and Interpretability [10.180033230324561]
近年、この研究領域におけるアプローチは、ConvNetベースのモデルに集中することから、トランスフォーマーベースのモデルへと移行している。
トランスモデルやビデオ時間力学に様々な解釈可能性アプローチが現れる。
論文 参考訳(メタデータ) (2023-10-18T19:58:25Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。