Fugu-MT 論文翻訳(概要): Transformer-Based Visual Segmentation: A Survey

論文の概要: Transformer-Based Visual Segmentation: A Survey

arxiv url: http://arxiv.org/abs/2304.09854v3
Date: Wed, 20 Dec 2023 05:21:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 19:06:22.036267
Title: Transformer-Based Visual Segmentation: A Survey
Title（参考訳）: 変圧器を用いた視覚セグメンテーション:調査
Authors: Xiangtai Li, Henghui Ding, Haobo Yuan, Wenwei Zhang, Jiangmiao Pang, Guangliang Cheng, Kai Chen, Ziwei Liu, Chen Change Loy
Abstract要約: ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
参考スコア（独自算出の注目度）: 122.45372317618309
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual segmentation seeks to partition images, video frames, or point clouds into multiple segments or groups. This technique has numerous real-world applications, such as autonomous driving, image editing, robot sensing, and medical analysis. Over the past decade, deep learning-based methods have made remarkable strides in this area. Recently, transformers, a type of neural network based on self-attention originally designed for natural language processing, have considerably surpassed previous convolutional or recurrent approaches in various vision processing tasks. Specifically, vision transformers offer robust, unified, and even simpler solutions for various segmentation tasks. This survey provides a thorough overview of transformer-based visual segmentation, summarizing recent advancements. We first review the background, encompassing problem definitions, datasets, and prior convolutional methods. Next, we summarize a meta-architecture that unifies all recent transformer-based approaches. Based on this meta-architecture, we examine various method designs, including modifications to the meta-architecture and associated applications. We also present several closely related settings, including 3D point cloud segmentation, foundation model tuning, domain-aware segmentation, efficient segmentation, and medical segmentation. Additionally, we compile and re-evaluate the reviewed methods on several well-established datasets. Finally, we identify open challenges in this field and propose directions for future research. The project page can be found at https://github.com/lxtGH/Awesome-Segmentation-With-Transformer. We will also continually monitor developments in this rapidly evolving field.
Abstract（参考訳）: ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。この技術には、自動運転、画像編集、ロボットセンシング、医療分析など、多くの現実世界の応用がある。過去10年間、ディープラーニングベースの手法がこの分野で顕著な進歩を遂げてきた。近年,自然言語処理用に設計された自己認識に基づくニューラルネットワークであるtransformersが,様々な視覚処理タスクにおける従来の畳み込みや再帰的アプローチを大きく上回っている。具体的には、視覚トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。本調査は、トランスフォーマティブに基づく視覚セグメンテーションの概観を提供し、最近の進歩を要約する。まず、問題定義、データセット、および事前畳み込みメソッドを含む背景をレビューする。次に、最近のトランスフォーマーベースのアプローチをすべて統合したメタアーキテクチャを要約する。このメタアーキテクチャに基づき、メタアーキテクチャおよび関連するアプリケーションの変更を含む様々なメソッド設計について検討する。また、3dポイントクラウドセグメンテーション、ファンデーションモデルチューニング、ドメイン認識セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、密接に関連する設定も提示する。さらに、いくつかの確立されたデータセットでレビューされたメソッドをコンパイルし、再評価します。最後に,この分野でのオープンな課題を特定し,今後の研究の方向性を提案する。プロジェクトのページはhttps://github.com/lxtGH/Awesome-Segmentation-With-Transformerにある。この急速に発展する分野での開発も継続的に監視します。

関連論文リスト

Multimodal Referring Segmentation: A Survey [93.24051010753817]
マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
論文参考訳（メタデータ） (2025-08-01T02:14:00Z)
M$^3$-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation [51.82272563578793]
本稿では,その視覚的特徴と潜在的な形態的・外見的変化に基づいて,現実世界の物体を分類するセグメンテーションにおける位相の概念を紹介する。本稿では,Multi-Phase,Multi-Transition,Multi-Scenery Video Object (M$3$-VOS) という新しいベンチマークを提案し,モデルが対象相を理解する能力を検証する。本稿では,リバーサルリファインメントによりその性能を向上させる新しいプラグアンドプレイモデルであるReVOSを提案する。
論文参考訳（メタデータ） (2024-12-18T12:50:11Z)
Image Segmentation in Foundation Model Era: A Survey [99.19456390358211]
イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文参考訳（メタデータ） (2024-08-23T10:07:59Z)
AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation [1.657223496316251]
視覚変換器をベースとしたUNet(ViT-UNet)セグメンテーションモデルの現在の設計は、不均一な外観を効果的に扱えない。本稿では,空間動的成分をViT-UNetに導入するための構造化手法を提案する。この適応により、モデルは様々な外観のターゲットオブジェクトの特徴を効果的に捉えることができる。
論文参考訳（メタデータ） (2024-03-29T19:25:09Z)
Understanding Video Transformers for Segmentation: A Survey of Application and Interpretability [10.180033230324561]
近年、この研究領域におけるアプローチは、ConvNetベースのモデルに集中することから、トランスフォーマーベースのモデルへと移行している。トランスモデルやビデオ時間力学に様々な解釈可能性アプローチが現れる。
論文参考訳（メタデータ） (2023-10-18T19:58:25Z)
Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-20T12:10:29Z)
Interactive Image Segmentation with Cross-Modality Vision Transformers [18.075338835513993]
クロスモダリティ・ビジョン・トランスフォーマーは、学習プロセスをより良くガイドするために相互情報を利用する。障害発生回避の観点からの本手法の安定性は,実用的なアノテーションツールとしての可能性を示している。
論文参考訳（メタデータ） (2023-07-05T13:29:05Z)
Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。 ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文参考訳（メタデータ） (2023-05-05T04:11:00Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文参考訳（メタデータ） (2021-05-12T13:01:44Z)
Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文参考訳（メタデータ） (2021-01-04T18:57:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。