論文の概要: Balancing Shared and Task-Specific Representations: A Hybrid Approach to Depth-Aware Video Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2412.07966v1
- Date: Tue, 10 Dec 2024 23:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:29.131513
- Title: Balancing Shared and Task-Specific Representations: A Hybrid Approach to Depth-Aware Video Panoptic Segmentation
- Title(参考訳): 共有化とタスク特化表現のバランス:深度対応型ビデオパノプティクスセグメンテーションへのハイブリッドアプローチ
- Authors: Kurt H. W. Stolle,
- Abstract要約: マスクトランスフォーマーのパラダイムに基づくDVPS(Deep-Aware Video Panoptic segmentation)の新たなアプローチであるMultiformerを提案する。
本手法は, セグメント化, 分子深度推定, オブジェクト追跡サブタスク間で共有されるオブジェクト表現を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this work, we present Multiformer, a novel approach to depth-aware video panoptic segmentation (DVPS) based on the mask transformer paradigm. Our method learns object representations that are shared across segmentation, monocular depth estimation, and object tracking subtasks. In contrast to recent unified approaches that progressively refine a common object representation, we propose a hybrid method using task-specific branches within each decoder block, ultimately fusing them into a shared representation at the block interfaces. Extensive experiments on the Cityscapes-DVPS and SemKITTI-DVPS datasets demonstrate that Multiformer achieves state-of-the-art performance across all DVPS metrics, outperforming previous methods by substantial margins. With a ResNet-50 backbone, Multiformer surpasses the previous best result by 3.0 DVPQ points while also improving depth estimation accuracy. Using a Swin-B backbone, Multiformer further improves performance by 4.0 DVPQ points. Multiformer also provides valuable insights into the design of multi-task decoder architectures.
- Abstract(参考訳): 本研究では,マスクトランスフォーマーのパラダイムに基づくDVPS(Deep-Aware Video Panoptic segmentation)の新たなアプローチであるMultiformerを提案する。
本手法は, セグメント化, 分子深度推定, オブジェクト追跡サブタスク間で共有されるオブジェクト表現を学習する。
共通オブジェクト表現を漸進的に洗練する最近の統一アプローチとは対照的に,各デコーダブロック内のタスク固有分岐を用いたハイブリッド手法を提案する。
Cityscapes-DVPSとSemKITTI-DVPSデータセットに関する大規模な実験は、MultiformerがすべてのDVPSメトリクスで最先端のパフォーマンスを達成し、従来の手法よりも大幅に差があることを示している。
ResNet-50のバックボーンにより、Multiformerは以前の最高の結果を3.0 DVPQポイントで上回り、深さ推定精度も向上した。
Swin-Bのバックボーンを使用して、Multiformerはさらにパフォーマンスを4.0 DVPQポイント向上させる。
Multiformerはまた、マルチタスクデコーダアーキテクチャの設計に関する貴重な洞察を提供する。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - PPTFormer: Pseudo Multi-Perspective Transformer for UAV Segmentation [18.585299793391748]
我々は,新しいtextbfPseudo Multi-textbfPerspective textbfTranstextbfformerネットワークであるPTFormerを紹介する。
提案手法は,マルチパースペクティブ学習の強化のための疑似視点を作成することによって,実際のマルチパースペクティブデータの必要性を回避する。
論文 参考訳(メタデータ) (2024-06-28T03:43:49Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - EVP: Enhanced Visual Perception using Inverse Multi-Attentive Feature
Refinement and Regularized Image-Text Alignment [40.328294121805456]
この研究は、コンピュータビジョンタスクにStable Diffusionネットワークを使用する方法を舗装した以前のVPDに基づいている。
Inverse Multi-Attentive Feature Refinement (IMAFR) モジュールを開発した。
第2に、安定拡散バックボーンの特徴抽出を改善するための新しい画像テキストアライメントモジュールを提案する。
論文 参考訳(メタデータ) (2023-12-13T22:20:45Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。