論文の概要: FLOAT: Factorized Learning of Object Attributes for Improved
Multi-object Multi-part Scene Parsing
- arxiv url: http://arxiv.org/abs/2203.16168v1
- Date: Wed, 30 Mar 2022 09:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 23:15:19.785660
- Title: FLOAT: Factorized Learning of Object Attributes for Improved
Multi-object Multi-part Scene Parsing
- Title(参考訳): float: 改良されたマルチオブジェクトマルチパートシーン解析のためのオブジェクト属性の因子化学習
- Authors: Rishubh Singh, Pranav Gupta, Pradeep Shenoy and Ravikiran
Sarvadevabhatla
- Abstract要約: スケーラブルな多目的多部分解析のための因子付きラベル空間フレームワークであるFLOATを提案する。
我々のフレームワークは、オブジェクトカテゴリと部分属性の独立に密集した予測を含む。
さらに,セグメンテーション品質を著しく向上させる推論時間「ゾム」改良手法を提案する。
- 参考スコア(独自算出の注目度): 10.94244766491706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-object multi-part scene parsing is a challenging task which requires
detecting multiple object classes in a scene and segmenting the semantic parts
within each object. In this paper, we propose FLOAT, a factorized label space
framework for scalable multi-object multi-part parsing. Our framework involves
independent dense prediction of object category and part attributes which
increases scalability and reduces task complexity compared to the monolithic
label space counterpart. In addition, we propose an inference-time 'zoom'
refinement technique which significantly improves segmentation quality,
especially for smaller objects/parts. Compared to state of the art, FLOAT
obtains an absolute improvement of 2.0% for mean IOU (mIOU) and 4.8% for
segmentation quality IOU (sqIOU) on the Pascal-Part-58 dataset. For the larger
Pascal-Part-108 dataset, the improvements are 2.1% for mIOU and 3.9% for sqIOU.
We incorporate previously excluded part attributes and other minor parts of the
Pascal-Part dataset to create the most comprehensive and challenging version
which we dub Pascal-Part-201. FLOAT obtains improvements of 8.6% for mIOU and
7.5% for sqIOU on the new dataset, demonstrating its parsing effectiveness
across a challenging diversity of objects and parts. The code and datasets are
available at floatseg.github.io.
- Abstract(参考訳): マルチオブジェクト マルチパーツ シーン解析は、シーン内の複数のオブジェクトクラスを検出し、各オブジェクト内のセマンティック部分をセグメント化する必要がある難しいタスクである。
本稿では,スケーラブルな多目的多部分解析のための因子付きラベル空間フレームワークであるFLOATを提案する。
本フレームワークは,モノリシックなラベル空間に比べて拡張性を高め,タスクの複雑さを低減させる,オブジェクトカテゴリと部分属性を独立に予測する。
さらに,特に小型オブジェクトや部品のセグメンテーション品質を著しく向上させる推論時間「ゾム」改良手法を提案する。
最先端技術と比較すると、FLOATはPascal-Part-58データセット上で平均IOU(mIOU)が2.0%、セグメンテーション品質IOU(sqIOU)が4.8%絶対改善されている。
大規模なPascal-Part-108データセットでは、mIOUが2.1%、sqIOUが3.9%改善されている。
以前除外された部分属性やその他のPascal-Partデータセットの小さな部分を組み込んで、Pascal-Part-201をダブした最も包括的で困難なバージョンを作成しました。
FLOATは、新しいデータセットでmIOUが8.6%、sqIOUが7.5%改善され、オブジェクトや部品の難易度で解析の有効性が示された。
コードとデータセットはfloatseg.github.ioで入手できる。
関連論文リスト
- From Pixels to Objects: A Hierarchical Approach for Part and Object Segmentation Using Local and Global Aggregation [24.51617545483278]
画像分割タスクのための階層型トランスフォーマーモデルを提案する。
我々のアプローチの核心は、個々のピクセルからスーパーピクセルへと体系的に進化するマルチレベル表現戦略である。
このアーキテクチャは、ローカルアグリゲーションとグローバルアグリゲーションという2つの重要なアグリゲーション戦略によって支えられている。
論文 参考訳(メタデータ) (2024-09-02T16:13:26Z) - Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Compositor: Bottom-up Clustering and Compositing for Robust Part and
Object Segmentation [16.48046112716597]
関節部と物体のセグメンテーションに対する頑健なアプローチを提案する。
ボトムアップ方式で,画素,部分,オブジェクトレベルの埋め込みを含む階層的な特徴表現を構築した。
このボトムアップ相互作用は、より低いセマンティックレベルからより高いセマンティックレベルへの情報の統合に有効であることが示されている。
論文 参考訳(メタデータ) (2023-06-12T20:12:02Z) - Towards Open-World Segmentation of Parts [16.056921233445784]
本稿では,クラスに依存しない部分分割タスクを提案する。
パートクラスなしでトレーニングされたモデルは、トレーニング時に見えない部分のローカライズとオブジェクトへのセグメンテーションを改善することができる、と私たちは主張する。
当社のアプローチでは,オープンワールドのパートセグメンテーションに向けた重要なステップとして,注目すべきかつ一貫した成果をあげています。
論文 参考訳(メタデータ) (2023-05-26T10:34:58Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Associating Objects with Transformers for Video Object Segmentation [74.51719591192787]
本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
論文 参考訳(メタデータ) (2021-06-04T17:59:57Z) - Universal-Prototype Augmentation for Few-Shot Object Detection [128.4592084104352]
Few-shot Object Detection (FSOD)は、ラベル付きサンプルの少ない新しいオブジェクト検出のパフォーマンスを強化することを目的とする。
少数のサンプルの制約を緩和するため、新しいオブジェクトの学習機能の一般化能力の向上が重要な役割を果たす。
我々は,すべての対象カテゴリから学習した新しいプロトタイプ,すなわちユニバーサルプロトタイプを提案する。
論文 参考訳(メタデータ) (2021-03-01T15:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。