論文の概要: Transformer-Based Visual Segmentation: A Survey
- arxiv url: http://arxiv.org/abs/2304.09854v1
- Date: Wed, 19 Apr 2023 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:17:59.520357
- Title: Transformer-Based Visual Segmentation: A Survey
- Title(参考訳): 変圧器を用いた視覚セグメンテーション:調査
- Authors: Xiangtai Li, Henghui Ding, Wenwei Zhang, Haobo Yuan, Jiangmiao Pang,
Guangliang Cheng, Kai Chen, Ziwei Liu, Chen Change Loy
- Abstract要約: ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
深層学習に基づく手法は、この分野で顕著な進歩を遂げている。
ビジョントランスフォーマーは、様々なセグメンテーションタスクに対して、堅牢で統一的で、さらに単純なソリューションを提供します。
- 参考スコア(独自算出の注目度): 94.46773250578207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual segmentation seeks to partition images, video frames, or point clouds
into multiple segments or groups. This technique has numerous real-world
applications, such as autonomous driving, image editing, robot sensing, and
medical analysis. Over the past decade, deep learning-based methods have made
remarkable strides in this area. Recently, transformers, a type of neural
network based on self-attention originally designed for natural language
processing, have considerably surpassed previous convolutional or recurrent
approaches in various vision processing tasks. Specifically, vision
transformers offer robust, unified, and even simpler solutions for various
segmentation tasks. This survey provides a thorough overview of
transformer-based visual segmentation, summarizing recent advancements. We
first review the background, encompassing problem definitions, datasets, and
prior convolutional methods. Next, we summarize a meta-architecture that
unifies all recent transformer-based approaches. Based on this
meta-architecture, we examine various method designs, including modifications
to the meta-architecture and associated applications. We also present several
closely related settings, including 3D point cloud segmentation, foundation
model tuning, domain-aware segmentation, efficient segmentation, and medical
segmentation. Additionally, we compile and re-evaluate the reviewed methods on
several well-established datasets. Finally, we identify open challenges in this
field and propose directions for future research. The project page can be found
at https://github.com/lxtGH/Awesome-Segmenation-With-Transformer. We will also
continually monitor developments in this rapidly evolving field.
- Abstract(参考訳): ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
この技術には、自動運転、画像編集、ロボットセンシング、医療分析など、多くの現実世界の応用がある。
過去10年間、ディープラーニングベースの手法がこの分野で顕著な進歩を遂げてきた。
近年,自然言語処理用に設計された自己認識に基づくニューラルネットワークであるtransformersが,様々な視覚処理タスクにおける従来の畳み込みや再帰的アプローチを大きく上回っている。
具体的には、視覚トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
本調査は、トランスフォーマティブに基づく視覚セグメンテーションの概観を提供し、最近の進歩を要約する。
まず、問題定義、データセット、および事前畳み込みメソッドを含む背景をレビューする。
次に、最近のトランスフォーマーベースのアプローチをすべて統合したメタアーキテクチャを要約する。
このメタアーキテクチャに基づき、メタアーキテクチャおよび関連するアプリケーションの変更を含む様々なメソッド設計について検討する。
また、3dポイントクラウドセグメンテーション、ファンデーションモデルチューニング、ドメイン認識セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、密接に関連する設定も提示する。
さらに、いくつかの確立されたデータセットでレビューされたメソッドをコンパイルし、再評価します。
最後に,この分野でのオープンな課題を特定し,今後の研究の方向性を提案する。
プロジェクトページはhttps://github.com/lxtgh/awesome-segmenation-with-transformerにある。
この急速に発展する分野での開発も継続的に監視します。
関連論文リスト
- Image Segmentation in Foundation Model Era: A Survey [99.19456390358211]
イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文 参考訳(メタデータ) (2024-08-23T10:07:59Z) - AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation [1.657223496316251]
視覚変換器をベースとしたUNet(ViT-UNet)セグメンテーションモデルの現在の設計は、不均一な外観を効果的に扱えない。
本稿では,空間動的成分をViT-UNetに導入するための構造化手法を提案する。
この適応により、モデルは様々な外観のターゲットオブジェクトの特徴を効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-03-29T19:25:09Z) - Understanding Video Transformers for Segmentation: A Survey of
Application and Interpretability [10.180033230324561]
近年、この研究領域におけるアプローチは、ConvNetベースのモデルに集中することから、トランスフォーマーベースのモデルへと移行している。
トランスモデルやビデオ時間力学に様々な解釈可能性アプローチが現れる。
論文 参考訳(メタデータ) (2023-10-18T19:58:25Z) - Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。
この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。
我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T12:10:29Z) - Interactive Image Segmentation with Cross-Modality Vision Transformers [18.075338835513993]
クロスモダリティ・ビジョン・トランスフォーマーは、学習プロセスをより良くガイドするために相互情報を利用する。
障害発生回避の観点からの本手法の安定性は,実用的なアノテーションツールとしての可能性を示している。
論文 参考訳(メタデータ) (2023-07-05T13:29:05Z) - Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文 参考訳(メタデータ) (2023-05-05T04:11:00Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。