論文の概要: OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for
Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2306.09682v2
- Date: Tue, 20 Jun 2023 06:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 11:17:13.325921
- Title: OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for
Object-Centric Learning
- Title(参考訳): OCTScenes: オブジェクト中心学習のためのテーブルトップシーンのマルチワールドデータセット
- Authors: Yinxuan Huang, Tonglin Chen, Zhimeng Shen, Jinghao Huang, Bin Li,
Xiangyang Xue
- Abstract要約: OCTScenes と呼ばれるオブジェクト中心学習のためのテーブルトップシーンの多用途実世界のデータセットを提案する。
OCTScenesには5000のテーブルトップシーンがあり、合計15の日常的なオブジェクトがある。
オブジェクト中心表現学習手法の比較、評価、分析のためのベンチマークとして、慎重に設計されている。
- 参考スコア(独自算出の注目度): 37.91245619662309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans possess the cognitive ability to comprehend scenes in a compositional
manner. To empower AI systems with similar abilities, object-centric
representation learning aims to acquire representations of individual objects
from visual scenes without any supervision. Although recent advancements in
object-centric representation learning have achieved remarkable progress on
complex synthesis datasets, there is a huge challenge for application in
complex real-world scenes. One of the essential reasons is the scarcity of
real-world datasets specifically tailored to object-centric representation
learning methods. To solve this problem, we propose a versatile real-world
dataset of tabletop scenes for object-centric learning called OCTScenes, which
is meticulously designed to serve as a benchmark for comparing, evaluating and
analyzing object-centric representation learning methods. OCTScenes contains
5000 tabletop scenes with a total of 15 everyday objects. Each scene is
captured in 60 frames covering a 360-degree perspective. Consequently,
OCTScenes is a versatile benchmark dataset that can simultaneously satisfy the
evaluation of object-centric representation learning methods across static
scenes, dynamic scenes, and multi-view scenes tasks. Extensive experiments of
object-centric representation learning methods for static, dynamic and
multi-view scenes are conducted on OCTScenes. The results demonstrate the
shortcomings of state-of-the-art methods for learning meaningful
representations from real-world data, despite their impressive performance on
complex synthesis datasets. Furthermore, OCTScenes can serves as a catalyst for
advancing existing state-of-the-art methods, inspiring them to adapt to
real-world scenes. Dataset and code are available at
https://huggingface.co/datasets/Yinxuan/OCTScenes.
- Abstract(参考訳): 人間は構成的にシーンを理解する認知能力を持っている。
オブジェクト中心表現学習は、類似した能力を持つAIシステムを強化するために、視覚的なシーンから個々のオブジェクトの表現を取得することを目的としている。
オブジェクト中心表現学習の最近の進歩は複雑な合成データセットにおいて著しい進歩を遂げてきたが、複雑な実世界での応用には大きな課題がある。
重要な理由の1つは、オブジェクト中心の表現学習に特化された現実世界のデータセットの不足である。
そこで本研究では,オブジェクト中心表現学習手法の比較,評価,分析のためのベンチマークとして設計された,オブジェクト中心学習のための多目的な実世界データセット octscenes を提案する。
OCTScenesには5000のテーブルトップシーンがあり、合計15の日常的なオブジェクトがある。
各シーンは360度視界をカバーする60フレームで撮影される。
その結果、OCTScenesは、静的シーン、動的シーン、マルチビューシーンタスク間でオブジェクト中心の表現学習手法の評価を同時に満足できる汎用的なベンチマークデータセットである。
静的,動的,多視点のシーンに対するオブジェクト中心表現学習手法の広範囲な実験を八段線上で行った。
その結果,複雑な合成データセットの性能に優れるにもかかわらず,実世界のデータから意味のある表現を学習するための最先端手法の欠点が示された。
さらに、octascenesは、既存の最先端の手法を前進させる触媒となり、現実世界のシーンに適応するよう促す。
データセットとコードはhttps://huggingface.co/datasets/Yinxuan/OCTScenesで入手できる。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - OCAtari: Object-Centric Atari 2600 Reinforcement Learning Environments [20.034972354302788]
我々は,OCAtariの導入により,深層RLアプローチの最も有用な評価フレームワークであるAtari Learning Environmentsを拡張した。
我々のフレームワークは、オブジェクト発見、オブジェクト表現学習、およびオブジェクト中心のRLを可能にします。
論文 参考訳(メタデータ) (2023-06-14T17:28:46Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。