論文の概要: Understanding Video Transformers for Segmentation: A Survey of
Application and Interpretability
- arxiv url: http://arxiv.org/abs/2310.12296v1
- Date: Wed, 18 Oct 2023 19:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 17:54:50.728734
- Title: Understanding Video Transformers for Segmentation: A Survey of
Application and Interpretability
- Title(参考訳): セグメンテーションのためのビデオトランスフォーマーの理解:応用と解釈可能性の検討
- Authors: Rezaul Karim, Richard P. Wildes
- Abstract要約: 近年、この研究領域におけるアプローチは、ConvNetベースのモデルに集中することから、トランスフォーマーベースのモデルへと移行している。
トランスモデルやビデオ時間力学に様々な解釈可能性アプローチが現れる。
- 参考スコア(独自算出の注目度): 10.180033230324561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video segmentation encompasses a wide range of categories of problem
formulation, e.g., object, scene, actor-action and multimodal video
segmentation, for delineating task-specific scene components with pixel-level
masks. Recently, approaches in this research area shifted from concentrating on
ConvNet-based to transformer-based models. In addition, various
interpretability approaches have appeared for transformer models and video
temporal dynamics, motivated by the growing interest in basic scientific
understanding, model diagnostics and societal implications of real-world
deployment. Previous surveys mainly focused on ConvNet models on a subset of
video segmentation tasks or transformers for classification tasks. Moreover,
component-wise discussion of transformer-based video segmentation models has
not yet received due focus. In addition, previous reviews of interpretability
methods focused on transformers for classification, while analysis of video
temporal dynamics modelling capabilities of video models received less
attention. In this survey, we address the above with a thorough discussion of
various categories of video segmentation, a component-wise discussion of the
state-of-the-art transformer-based models, and a review of related
interpretability methods. We first present an introduction to the different
video segmentation task categories, their objectives, specific challenges and
benchmark datasets. Next, we provide a component-wise review of recent
transformer-based models and document the state of the art on different video
segmentation tasks. Subsequently, we discuss post-hoc and ante-hoc
interpretability methods for transformer models and interpretability methods
for understanding the role of the temporal dimension in video models. Finally,
we conclude our discussion with future research directions.
- Abstract(参考訳): ビデオセグメンテーションは、オブジェクト、シーン、アクタアクション、マルチモーダルビデオセグメンテーションなど、タスク固有のシーンコンポーネントをピクセルレベルのマスクでラインナリングするための問題定式化の幅広いカテゴリを含んでいる。
近年、この研究領域におけるアプローチは、ConvNetベースからトランスフォーマーベースモデルへとシフトしている。
さらに、トランスフォーマーモデルやビデオテンポラリダイナミクスに対する様々な解釈可能性アプローチが登場し、科学的な基礎理解、モデル診断、現実世界の展開の社会的影響への関心が高まっている。
以前の調査は主に、分類タスクのためのビデオセグメンテーションタスクまたはトランスフォーマーのサブセットに関するConvNetモデルに焦点を当てていた。
さらに、トランスベースビデオセグメンテーションモデルのコンポーネント単位での議論はまだ検討されていない。
さらに,ビデオモデルの時間的ダイナミックスモデリング能力の解析よりも,分類のためのトランスフォーマーに着目した解釈可能性手法の以前のレビューの方が注目度が低かった。
本調査では,ビデオセグメンテーションのさまざまなカテゴリに関する徹底的な議論,最先端のトランスフォーマーモデルに関するコンポーネントワイドな議論,および関連する解釈可能性手法について述べる。
まず、異なるビデオセグメンテーションタスクカテゴリ、その目的、具体的な課題、ベンチマークデータセットについて紹介する。
次に、近年のトランスフォーマーベースモデルのコンポーネントワイドレビューを行い、異なるビデオセグメンテーションタスクにおける技術の現状を文書化する。
次に,変圧器モデルのポストホックおよびアンテホック解釈法と,映像モデルにおける時間次元の役割を理解するための解釈法について論じる。
最後に、今後の研究方針で議論を締めくくります。
関連論文リスト
- Understanding Video Transformers via Universal Concept Discovery [44.869479587300525]
我々は,自動で発見される高レベルな時間的概念に基づいて,トランスフォーマーの意思決定プロセスを説明する。
本稿では,VTCD(Video Transformer Concept Discovery)アルゴリズムについて紹介する。
結果として生じる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時間的推論機構とオブジェクト中心の表現を明らかにする。
論文 参考訳(メタデータ) (2024-01-19T17:27:21Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Transformer-Based Visual Segmentation: A Survey [118.01564082499948]
ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。
トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-04-19T17:59:02Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。