論文の概要: FOCUS: Towards Universal Foreground Segmentation
- arxiv url: http://arxiv.org/abs/2501.05238v1
- Date: Thu, 09 Jan 2025 13:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:03.446767
- Title: FOCUS: Towards Universal Foreground Segmentation
- Title(参考訳): FOCUS: ユニバーサルフォアグラウンドセグメンテーションを目指して
- Authors: Zuyao You, Lingyu Kong, Lingchen Meng, Zuxuan Wu,
- Abstract要約: フォアグラウンドセグメンテーションはコンピュータビジョンにおける基本的なタスクであり、様々なサブディビジョンタスクを含んでいる。
従来の研究は、通常、各タスクのためのタスク固有のアーキテクチャを設計し、統一の欠如につながった。
我々は,複数のフォアグラウンドタスクを処理可能なフォアグラウンドObjeCts UniversalフレームワークであるFOCUSを紹介する。
- 参考スコア(独自算出の注目度): 32.60315411785438
- License:
- Abstract: Foreground segmentation is a fundamental task in computer vision, encompassing various subdivision tasks. Previous research has typically designed task-specific architectures for each task, leading to a lack of unification. Moreover, they primarily focus on recognizing foreground objects without effectively distinguishing them from the background. In this paper, we emphasize the importance of the background and its relationship with the foreground. We introduce FOCUS, the Foreground ObjeCts Universal Segmentation framework that can handle multiple foreground tasks. We develop a multi-scale semantic network using the edge information of objects to enhance image features. To achieve boundary-aware segmentation, we propose a novel distillation method, integrating the contrastive learning strategy to refine the prediction mask in multi-modal feature space. We conduct extensive experiments on a total of 13 datasets across 5 tasks, and the results demonstrate that FOCUS consistently outperforms the state-of-the-art task-specific models on most metrics.
- Abstract(参考訳): フォアグラウンドセグメンテーションはコンピュータビジョンにおける基本的なタスクであり、様々なサブディビジョンタスクを含んでいる。
従来の研究は、通常、各タスクのためのタスク固有のアーキテクチャを設計し、統一の欠如につながった。
さらに、主に背景オブジェクトを効果的に区別することなく、前景オブジェクトを認識することに重点を置いている。
本稿では,背景の重要性と前景との関係を強調する。
複数のフォアグラウンドタスクを処理できるフォアグラウンドObjeCts Universal SegmentationフレームワークであるFOCUSを紹介する。
画像特徴量を高めるために,オブジェクトのエッジ情報を用いたマルチスケールセマンティックネットワークを開発した。
境界対応セグメンテーションを実現するため,マルチモーダル特徴空間の予測マスクを改良するために,コントラスト学習戦略を統合した新しい蒸留法を提案する。
我々は5つのタスクにまたがる合計13のデータセットについて広範な実験を行い、その結果、FOCUSはほとんどのメトリクスにおいて、最先端のタスク固有モデルよりも一貫して優れていることを示した。
関連論文リスト
- Panoptic Perception: A Novel Task and Fine-grained Dataset for Universal Remote Sensing Image Interpretation [19.987706084203523]
本稿では,新しいタスクであるPanoptic Perceptionと,より徹底的で普遍的なRSI解釈を実現するためのFineGrip(FineGrip)を提案する。
新しいタスクは、ピクセルレベル、インスタンスレベル、イメージレベル情報を統合して、普遍的なイメージ知覚を実現する。
FineGripデータセットには、2,649のリモートセンシングイメージ、20のフォアグラウンドに属する12,054のきめ細かいインスタンスセグメンテーションマスク、5つのクラスのための7,599のバックグラウンドセマンティックマスク、13,245のキャプション文が含まれている。
論文 参考訳(メタデータ) (2024-04-06T12:27:21Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Sharp Eyes: A Salient Object Detector Working The Same Way as Human
Visual Characteristics [3.222802562733787]
本稿では,まず被写体をシーンから分離し,それを細分化するシャープアイネットワーク(SENet)を提案する。
提案手法は,拡張オブジェクトを用いてネットワークを誘導し,完全な予測を行う。
論文 参考訳(メタデータ) (2023-01-18T11:00:45Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Empirical Study of Multi-Task Hourglass Model for Semantic Segmentation
Task [0.7614628596146599]
エッジ検出, 意味輪郭, 距離変換タスクを用いて, セマンティックセグメンテーションタスクを補完するマルチタスク手法を提案する。
本研究では,Cityscapes,CamVid,Freiburg Forestの各データセットにおける時間ガラスモデルのマルチタスク環境における学習の有効性を示す。
論文 参考訳(メタデータ) (2021-05-28T01:08:10Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。