論文の概要: Understanding Video Transformers via Universal Concept Discovery
- arxiv url: http://arxiv.org/abs/2401.10831v3
- Date: Wed, 10 Apr 2024 15:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 18:56:10.836389
- Title: Understanding Video Transformers via Universal Concept Discovery
- Title(参考訳): ユニバーサルコンセプトディスカバリによるビデオトランスフォーマーの理解
- Authors: Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov,
- Abstract要約: 我々は,自動で発見される高レベルな時間的概念に基づいて,トランスフォーマーの意思決定プロセスを説明する。
本稿では,VTCD(Video Transformer Concept Discovery)アルゴリズムについて紹介する。
結果として生じる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時間的推論機構とオブジェクト中心の表現を明らかにする。
- 参考スコア(独自算出の注目度): 44.869479587300525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of concept-based interpretability of transformer representations for videos. Concretely, we seek to explain the decision-making process of video transformers based on high-level, spatiotemporal concepts that are automatically discovered. Prior research on concept-based interpretability has concentrated solely on image-level tasks. Comparatively, video models deal with the added temporal dimension, increasing complexity and posing challenges in identifying dynamic concepts over time. In this work, we systematically address these challenges by introducing the first Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose an efficient approach for unsupervised identification of units of video transformer representations - concepts, and ranking their importance to the output of a model. The resulting concepts are highly interpretable, revealing spatio-temporal reasoning mechanisms and object-centric representations in unstructured video models. Performing this analysis jointly over a diverse set of supervised and self-supervised representations, we discover that some of these mechanism are universal in video transformers. Finally, we show that VTCD can be used for fine-grained action recognition and video object segmentation.
- Abstract(参考訳): 本稿では,ビデオの変圧器表現における概念に基づく解釈可能性の問題について検討する。
具体的には、自動で検出される高レベルな時空間概念に基づいて、ビデオトランスフォーマーの意思決定過程を説明する。
概念に基づく解釈可能性に関する以前の研究は、イメージレベルのタスクにのみ集中してきた。
比較として、ビデオモデルは時間次元を追加し、複雑さを増し、時間とともに動的概念を識別する上での課題を提起する。
本稿では,ビデオトランスフォーマー概念発見(VTCD)アルゴリズムを導入することで,これらの課題に体系的に対処する。
そこで本研究では,ビデオトランスフォーマー表現の単位を教師なしで識別する手法を提案し,その重要性をモデルの出力にランク付けする。
結果として得られる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時空間的推論機構とオブジェクト中心表現を明らかにする。
この分析を多種多様な教師付きおよび自己教師付き表現に対して共同で行うことにより、ビデオトランスにおいてこれらのメカニズムのいくつかが普遍的であることが分かる。
最後に,VTCDを微細な動作認識やビデオオブジェクトのセグメンテーションに利用できることを示す。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - Understanding Video Transformers for Segmentation: A Survey of
Application and Interpretability [10.180033230324561]
近年、この研究領域におけるアプローチは、ConvNetベースのモデルに集中することから、トランスフォーマーベースのモデルへと移行している。
トランスモデルやビデオ時間力学に様々な解釈可能性アプローチが現れる。
論文 参考訳(メタデータ) (2023-10-18T19:58:25Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。