論文の概要: A Dense Material Segmentation Dataset for Indoor and Outdoor Scene
Parsing
- arxiv url: http://arxiv.org/abs/2207.10614v1
- Date: Thu, 21 Jul 2022 17:15:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:19:12.853983
- Title: A Dense Material Segmentation Dataset for Indoor and Outdoor Scene
Parsing
- Title(参考訳): 屋内・屋外シーン解析のための高密度材料セグメンテーションデータセット
- Authors: Paul Upchurch and Ransen Niu
- Abstract要約: 室内および屋外の画像44,560枚に320万個の高密度セグメントの大規模データセットを提案する。
私たちのデータには、より多様なシーン、オブジェクト、視点、材料が含まれています。
我々は、データに基づいてトレーニングされたモデルが、データセットと視点をまたいだ最先端のモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 1.7404865362620798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key algorithm for understanding the world is material segmentation, which
assigns a label (metal, glass, etc.) to each pixel. We find that a model
trained on existing data underperforms in some settings and propose to address
this with a large-scale dataset of 3.2 million dense segments on 44,560 indoor
and outdoor images, which is 23x more segments than existing data. Our data
covers a more diverse set of scenes, objects, viewpoints and materials, and
contains a more fair distribution of skin types. We show that a model trained
on our data outperforms a state-of-the-art model across datasets and
viewpoints. We propose a large-scale scene parsing benchmark and baseline of
0.729 per-pixel accuracy, 0.585 mean class accuracy and 0.420 mean IoU across
46 materials.
- Abstract(参考訳): 世界を理解するための鍵となるアルゴリズムは、各ピクセルにラベル(金属、ガラスなど)を割り当てるマテリアルセグメンテーションである。
既存のデータに基づいてトレーニングされたモデルが,既存のデータよりも23倍多い44,560個の屋内および屋外画像上の320万の密集セグメントの大規模データセットで対処することを提案する。
私たちのデータには、より多様なシーン、オブジェクト、視点、材料が含まれており、皮膚の種類をより公平に分布しています。
我々は、データに基づいてトレーニングされたモデルが、データセットと視点をまたいだ最先端のモデルより優れていることを示す。
そこで本研究では,大規模シーン解析ベンチマークとベースラインの画素毎の精度0.729,平均クラス精度0.585,平均IoU0.420を提案する。
関連論文リスト
- SAM 2: Segment Anything in Images and Videos [63.44869623822368]
本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。
ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。
我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T17:00:08Z) - From Pixels to Prose: A Large Dataset of Dense Image Captions [76.97493750144812]
PixelProseは、合成されたキャプション16万あまりの包括的データセットである。
データ整合性を確保するため、問題のあるコンテンツのデータセットを厳格に分析します。
また、透かしの存在や美的スコアなどの貴重なメタデータも提供します。
論文 参考訳(メタデータ) (2024-06-14T17:59:53Z) - PACE: A Large-Scale Dataset with Pose Annotations in Cluttered Environments [50.79058028754952]
PACE(Pose s in Cluttered Environments)は、散在シナリオにおけるポーズ推定手法の大規模ベンチマークである。
ベンチマークは55Kフレームで構成され、300の動画に258Kのアノテーションがあり、43のカテゴリから238のオブジェクトをカバーしている。
PACE-Simには、931オブジェクトにわたる2.4Mアノテーションを備えた100Kのフォトリアリスティックシミュレートフレームが含まれている。
論文 参考訳(メタデータ) (2023-12-23T01:38:41Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Adapting to Unseen Vendor Domains for MRI Lesion Segmentation [0.08156494881838945]
本稿では,ソースデータセットからターゲットデータセットへのMR画像の拡張を目的とした教師なし画像翻訳モデルについて検討する。
画像間の変換、スキャナーベンダー間の変換、ラベルから画像への変換からなるデータセット間の拡張の3つの構成について検討する。
その結果、ラベルから画像構成までの合成データに基づいて訓練されたセグメンテーションモデルが、ターゲットデータセット上で直接訓練されたセグメンテーションモデルに最も近い性能を示した。
論文 参考訳(メタデータ) (2021-08-14T01:09:43Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Learning from THEODORE: A Synthetic Omnidirectional Top-View Indoor
Dataset for Deep Transfer Learning [4.297070083645049]
TheODOREは,14種類の高解像度魚眼画像10万点を含む,新しい大規模屋内データセットである。
リビングルーム、異なる人間キャラクター、インテリアテクスチャの3D仮想環境を作成します。
我々のデータセットは、オブジェクト検出のための微調整CNNに適していることを示す。
論文 参考訳(メタデータ) (2020-11-11T11:46:33Z) - Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene
Understanding [8.720130442653575]
Hypersimは、総合的な屋内シーン理解のための合成データセットである。
室内461のシーンを77,400枚生成し,詳細なピクセルごとのラベルとそれに対応する地平線形状を推定した。
論文 参考訳(メタデータ) (2020-11-04T20:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。