論文の概要: Joint Depth Prediction and Semantic Segmentation with Multi-View SAM
- arxiv url: http://arxiv.org/abs/2311.00134v1
- Date: Tue, 31 Oct 2023 20:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:44:59.203658
- Title: Joint Depth Prediction and Semantic Segmentation with Multi-View SAM
- Title(参考訳): 多視点SAMを用いた共同深さ予測とセマンティックセグメンテーション
- Authors: Mykhailo Shvets, Dongxu Zhao, Marc Niethammer, Roni Sengupta,
Alexander C. Berg
- Abstract要約: 我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
- 参考スコア(独自算出の注目度): 59.99496827912684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task approaches to joint depth and segmentation prediction are
well-studied for monocular images. Yet, predictions from a single-view are
inherently limited, while multiple views are available in many robotics
applications. On the other end of the spectrum, video-based and full 3D methods
require numerous frames to perform reconstruction and segmentation. With this
work we propose a Multi-View Stereo (MVS) technique for depth prediction that
benefits from rich semantic features of the Segment Anything Model (SAM). This
enhanced depth prediction, in turn, serves as a prompt to our Transformer-based
semantic segmentation decoder. We report the mutual benefit that both tasks
enjoy in our quantitative and qualitative studies on the ScanNet dataset. Our
approach consistently outperforms single-task MVS and segmentation models,
along with multi-task monocular methods.
- Abstract(参考訳): 関節深度とセグメンテーション予測に対するマルチタスクアプローチは単眼画像に対してよく研究されている。
しかし、単一のビューからの予測は本質的に限定的であり、多くのロボティクスアプリケーションでは複数のビューが利用できる。
スペクトルの反対側では、ビデオベースおよびフル3D法は再構成と分割を行うために多数のフレームを必要とする。
本研究では,Segment Anything Model (SAM) のリッチなセマンティックな特徴を活かした深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張された深さ予測は、transformerベースのセマンティクスセグメンテーションデコーダのプロンプトとして役立ちます。
両タスクがscannetデータセットに関する定量的・定性的研究で享受できる相互利益を報告する。
提案手法は,マルチタスク単眼法とともに,シングルタスクmvとセグメンテーションモデルを一貫して上回っている。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer [12.544216587327387]
本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。
本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:50:19Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。