Fugu-MT 論文翻訳(概要): ClevrTex: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation

論文の概要: ClevrTex: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation

arxiv url: http://arxiv.org/abs/2111.10265v1
Date: Fri, 19 Nov 2021 15:11:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-22 16:14:03.784713
Title: ClevrTex: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation
Title（参考訳）: ClevrTex: 教師なしマルチオブジェクトセグメンテーションのためのテクスチャリッチベンチマーク
Authors: Laurynas Karazija, Iro Laina, Christian Rupprecht
Abstract要約: 本稿では,アルゴリズムの比較,評価,分析を行うための次の課題として,ClevrTexを提案する。 ClarTexは、様々な形状、テクスチャ、フォトマップ素材を備えた合成シーンを特徴としている。我々は、ClevrTex上で、最近の多数の教師なしマルチオブジェクトセグメンテーションモデルをベンチマークし、テクスチャ化された環境では、すべての最先端のアプローチが良い表現を学習できないことを発見した。
参考スコア（独自算出の注目度）: 23.767094632640763
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There has been a recent surge in methods that aim to decompose and segment scenes into multiple objects in an unsupervised manner, i.e., unsupervised multi-object segmentation. Performing such a task is a long-standing goal of computer vision, offering to unlock object-level reasoning without requiring dense annotations to train segmentation models. Despite significant progress, current models are developed and trained on visually simple scenes depicting mono-colored objects on plain backgrounds. The natural world, however, is visually complex with confounding aspects such as diverse textures and complicated lighting effects. In this study, we present a new benchmark called ClevrTex, designed as the next challenge to compare, evaluate and analyze algorithms. ClevrTex features synthetic scenes with diverse shapes, textures and photo-mapped materials, created using physically based rendering techniques. It includes 50k examples depicting 3-10 objects arranged on a background, created using a catalog of 60 materials, and a further test set featuring 10k images created using 25 different materials. We benchmark a large set of recent unsupervised multi-object segmentation models on ClevrTex and find all state-of-the-art approaches fail to learn good representations in the textured setting, despite impressive performance on simpler data. We also create variants of the ClevrTex dataset, controlling for different aspects of scene complexity, and probe current approaches for individual shortcomings. Dataset and code are available at https://www.robots.ox.ac.uk/~vgg/research/clevrtex.
Abstract（参考訳）: 最近、シーンを教師なしの方法で、すなわち教師なしのマルチオブジェクトセグメンテーションで、複数のオブジェクトに分解およびセグメント化することを目的としたメソッドが急増している。このようなタスクを実行することは、コンピュータビジョンの長年の目標であり、セグメンテーションモデルのトレーニングに密なアノテーションを必要とせずに、オブジェクトレベルの推論を解き放つことができる。著しい進歩にもかかわらず、現在のモデルは、普通の背景にモノクロオブジェクトを描いた視覚的に単純なシーンで開発され、訓練されている。しかし、自然界は視覚的に複雑であり、多様なテクスチャや複雑な照明効果といった相違点がある。本研究では,アルゴリズムの比較,評価,解析を行う次の課題として,ClevrTexという新しいベンチマークを提案する。 ClevrTexは、様々な形状、テクスチャ、フォトマップ素材を備えた合成シーンを特徴としている。背景に配置した3-10個のオブジェクトを描いた50kのサンプルが60の素材のカタログで作成され、さらに25の異なる材料で作成された10kのイメージがフィーチャーされたテストセットも用意されている。我々は、clevrtex上で最近教師なしのマルチオブジェクトセグメンテーションモデルの大規模なセットをベンチマークし、より単純なデータで素晴らしいパフォーマンスにもかかわらず、すべての最先端のアプローチがテクスチャ設定で良い表現を学習できないことを発見した。また、clevrtexデータセットの変種を作成し、シーンの複雑さの異なる側面を制御し、個々の欠点に対する現在のアプローチを調査します。データセットとコードはhttps://www.robots.ox.ac.uk/~vgg/research/clevrtexで入手できる。

関連論文リスト

ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation [14.534308478766476]
何千もの挑戦的なビデオを含む新しいデータセットであるViCaSを紹介します。本ベンチマークでは,全体的/高レベルの理解と言語誘導,画素精度のセグメンテーションに関するモデルを評価する。
論文参考訳（メタデータ） (2024-12-12T23:10:54Z)
3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文参考訳（メタデータ） (2024-12-05T15:27:58Z)
AIM 2024 Sparse Neural Rendering Challenge: Dataset and Benchmark [43.76981659253837]
異なるレンダリングは、シーンの密集した視点のカバレッジに依存します。ほんのわずかのインプットビューが利用できる場合、多くの課題が発生する。スパースレンダリング文学における繰り返し発生する問題は、均一で最新のデータセットと評価プロトコルがないことである。 DTU MVSデータセットのセットアップに従う新しいデータセットを導入する。
論文参考訳（メタデータ） (2024-09-23T14:10:06Z)
MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。 MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文参考訳（メタデータ） (2024-06-17T17:55:55Z)
View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文参考訳（メタデータ） (2024-05-30T04:14:58Z)
Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文参考訳（メタデータ） (2024-03-28T11:12:33Z)
DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文参考訳（メタデータ） (2023-07-19T17:58:03Z)
DisCoScene: Spatially Disentangled Generative Radiance Fields for Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2022-12-22T18:59:59Z)
Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。 700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文参考訳（メタデータ） (2022-12-12T19:22:17Z)
Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文参考訳（メタデータ） (2022-03-18T21:13:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。