論文の概要: UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
- arxiv url: http://arxiv.org/abs/2312.15715v1
- Date: Mon, 25 Dec 2023 12:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:56:23.022307
- Title: UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
- Title(参考訳): UniRef++: 空間空間と時間空間におけるすべての参照オブジェクトのセグメンテーション
- Authors: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
- Abstract要約: 単一のアーキテクチャで4つの参照ベースのオブジェクトセグメンテーションタスクを統合するために、UniRef++を提案する。
統一された設計により、UniRef++は幅広いベンチマークで共同でトレーニングすることができ、実行時に柔軟に複数のタスクを完了させることができる。
提案する UniRef++ は RIS と RVOS の最先端性能を実現し,パラメータ共有ネットワークを用いて FSS と VOS の競合性能を実現する。
- 参考スコア(独自算出の注目度): 92.52589788633856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reference-based object segmentation tasks, namely referring image
segmentation (RIS), few-shot image segmentation (FSS), referring video object
segmentation (RVOS), and video object segmentation (VOS), aim to segment a
specific object by utilizing either language or annotated masks as references.
Despite significant progress in each respective field, current methods are
task-specifically designed and developed in different directions, which hinders
the activation of multi-task capabilities for these tasks. In this work, we end
the current fragmented situation and propose UniRef++ to unify the four
reference-based object segmentation tasks with a single architecture. At the
heart of our approach is the proposed UniFusion module which performs
multiway-fusion for handling different tasks with respect to their specified
references. And a unified Transformer architecture is then adopted for
achieving instance-level segmentation. With the unified designs, UniRef++ can
be jointly trained on a broad range of benchmarks and can flexibly complete
multiple tasks at run-time by specifying the corresponding references. We
evaluate our unified models on various benchmarks. Extensive experimental
results indicate that our proposed UniRef++ achieves state-of-the-art
performance on RIS and RVOS, and performs competitively on FSS and VOS with a
parameter-shared network. Moreover, we showcase that the proposed UniFusion
module could be easily incorporated into the current advanced foundation model
SAM and obtain satisfactory results with parameter-efficient finetuning. Codes
and models are available at \url{https://github.com/FoundationVision/UniRef}.
- Abstract(参考訳): 参照ベースのオブジェクトセグメンテーションタスク、すなわち、画像セグメンテーション(RIS)、少数ショット画像セグメンテーション(FSS)、ビデオオブジェクトセグメンテーション(RVOS)、ビデオオブジェクトセグメンテーション(VOS)は、言語または注釈付きマスクを基準として特定のオブジェクトをセグメンテーションすることを目指している。
それぞれの分野において著しい進歩にもかかわらず、現在の手法はタスク固有の設計と異なる方向に開発されており、タスクのマルチタスク機能の活性化を妨げている。
本稿では,現状の断片化を終わらせ,単一アーキテクチャによる4つの参照ベースオブジェクトセグメンテーションタスクを統合するためのuniref++を提案する。
提案するUniFusionモジュールは,特定の参照に対して異なるタスクを処理するためのマルチウェイフュージョンを実行する。
そして、インスタンスレベルのセグメンテーションを達成するために統一トランスフォーマーアーキテクチャが採用される。
統一された設計により、uniref++は幅広いベンチマークで共同でトレーニングでき、対応する参照を指定することで、実行時に複数のタスクを柔軟に完了することができる。
様々なベンチマークで統一モデルを評価する。
提案した UniRef++ は RIS および RVOS 上での最先端性能を実現し,パラメータ共有ネットワークを用いた FSS と VOS 上での競合性能を示す。
さらに,提案したUniFusionモジュールは,現在の基礎モデルSAMに容易に組み込むことができ,パラメータ効率の良い微調整による良好な結果が得られることを示した。
コードとモデルは \url{https://github.com/FoundationVision/UniRef} で公開されている。
関連論文リスト
- Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes [11.575313825919205]
参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。
Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。
本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:54:45Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Leveraging GAN Priors for Few-Shot Part Segmentation [43.35150430895919]
わずかなショット部分のセグメンテーションは、少数のサンプルしか与えられていないオブジェクトの異なる部分を切り離すことを目的としている。
本稿では,タスク固有の特徴を「事前学習」-「微調整」パラダイムで学習することを提案する。
論文 参考訳(メタデータ) (2022-07-27T10:17:07Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Instance-Specific Feature Propagation for Referring Segmentation [28.58551450280675]
セグメンテーションの参照は、自然言語表現で示されるターゲットインスタンスのセグメンテーションマスクを生成することを目的としている。
本稿では,特徴伝搬により興味の対象を同時に検出し,きめ細かいセグメンテーションマスクを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-26T07:08:14Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。