論文の概要: ClevrTex: A Texture-Rich Benchmark for Unsupervised Multi-Object
Segmentation
- arxiv url: http://arxiv.org/abs/2111.10265v1
- Date: Fri, 19 Nov 2021 15:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:14:03.784713
- Title: ClevrTex: A Texture-Rich Benchmark for Unsupervised Multi-Object
Segmentation
- Title(参考訳): ClevrTex: 教師なしマルチオブジェクトセグメンテーションのためのテクスチャリッチベンチマーク
- Authors: Laurynas Karazija, Iro Laina, Christian Rupprecht
- Abstract要約: 本稿では,アルゴリズムの比較,評価,分析を行うための次の課題として,ClevrTexを提案する。
ClarTexは、様々な形状、テクスチャ、フォトマップ素材を備えた合成シーンを特徴としている。
我々は、ClevrTex上で、最近の多数の教師なしマルチオブジェクトセグメンテーションモデルをベンチマークし、テクスチャ化された環境では、すべての最先端のアプローチが良い表現を学習できないことを発見した。
- 参考スコア(独自算出の注目度): 23.767094632640763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a recent surge in methods that aim to decompose and segment
scenes into multiple objects in an unsupervised manner, i.e., unsupervised
multi-object segmentation. Performing such a task is a long-standing goal of
computer vision, offering to unlock object-level reasoning without requiring
dense annotations to train segmentation models. Despite significant progress,
current models are developed and trained on visually simple scenes depicting
mono-colored objects on plain backgrounds. The natural world, however, is
visually complex with confounding aspects such as diverse textures and
complicated lighting effects. In this study, we present a new benchmark called
ClevrTex, designed as the next challenge to compare, evaluate and analyze
algorithms. ClevrTex features synthetic scenes with diverse shapes, textures
and photo-mapped materials, created using physically based rendering
techniques. It includes 50k examples depicting 3-10 objects arranged on a
background, created using a catalog of 60 materials, and a further test set
featuring 10k images created using 25 different materials. We benchmark a large
set of recent unsupervised multi-object segmentation models on ClevrTex and
find all state-of-the-art approaches fail to learn good representations in the
textured setting, despite impressive performance on simpler data. We also
create variants of the ClevrTex dataset, controlling for different aspects of
scene complexity, and probe current approaches for individual shortcomings.
Dataset and code are available at
https://www.robots.ox.ac.uk/~vgg/research/clevrtex.
- Abstract(参考訳): 最近、シーンを教師なしの方法で、すなわち教師なしのマルチオブジェクトセグメンテーションで、複数のオブジェクトに分解およびセグメント化することを目的としたメソッドが急増している。
このようなタスクを実行することは、コンピュータビジョンの長年の目標であり、セグメンテーションモデルのトレーニングに密なアノテーションを必要とせずに、オブジェクトレベルの推論を解き放つことができる。
著しい進歩にもかかわらず、現在のモデルは、普通の背景にモノクロオブジェクトを描いた視覚的に単純なシーンで開発され、訓練されている。
しかし、自然界は視覚的に複雑であり、多様なテクスチャや複雑な照明効果といった相違点がある。
本研究では,アルゴリズムの比較,評価,解析を行う次の課題として,ClevrTexという新しいベンチマークを提案する。
ClevrTexは、様々な形状、テクスチャ、フォトマップ素材を備えた合成シーンを特徴としている。
背景に配置した3-10個のオブジェクトを描いた50kのサンプルが60の素材のカタログで作成され、さらに25の異なる材料で作成された10kのイメージがフィーチャーされたテストセットも用意されている。
我々は、clevrtex上で最近教師なしのマルチオブジェクトセグメンテーションモデルの大規模なセットをベンチマークし、より単純なデータで素晴らしいパフォーマンスにもかかわらず、すべての最先端のアプローチがテクスチャ設定で良い表現を学習できないことを発見した。
また、clevrtexデータセットの変種を作成し、シーンの複雑さの異なる側面を制御し、個々の欠点に対する現在のアプローチを調査します。
データセットとコードはhttps://www.robots.ox.ac.uk/~vgg/research/clevrtexで入手できる。
関連論文リスト
- DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - A Comprehensive Review of Modern Object Segmentation Approaches [1.7041248235270654]
画像セグメンテーション(英: Image segmentation)とは、画像中のピクセルをそれぞれのオブジェクトクラスラベルに関連付けるタスクである。
画像レベルのオブジェクト認識と画素レベルのシーン理解のためのディープラーニングベースのアプローチが開発されている。
イメージセグメンテーションタスクの拡張には、3Dとビデオセグメンテーションが含まれており、voxポイントクラウドのユニットとビデオフレームは異なるオブジェクトに分類される。
論文 参考訳(メタデータ) (2023-01-13T19:35:46Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文 参考訳(メタデータ) (2022-12-12T19:22:17Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。