論文の概要: ORIDa: Object-centric Real-world Image Composition Dataset
- arxiv url: http://arxiv.org/abs/2506.08964v1
- Date: Tue, 10 Jun 2025 16:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.868643
- Title: ORIDa: Object-centric Real-world Image Composition Dataset
- Title(参考訳): ORIDA:オブジェクト中心のリアルワールドイメージコンポジションデータセット
- Authors: Jinwoo Kim, Sangmin Han, Jinho Jeong, Jiwoo Choi, Dongyoung Kim, Seon Joo Kim,
- Abstract要約: ORIDAは、200のユニークなオブジェクトを含む30,000以上の画像を含む、大規模で実際のキャプチャーされたデータセットである。
我々の知る限り、ORIDaは、実世界の画像合成のためのスケールと複雑さを備えた、最初の公開データセットです。
- 参考スコア(独自算出の注目度): 22.625099905896317
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Object compositing, the task of placing and harmonizing objects in images of diverse visual scenes, has become an important task in computer vision with the rise of generative models. However, existing datasets lack the diversity and scale required to comprehensively explore real-world scenarios. We introduce ORIDa (Object-centric Real-world Image Composition Dataset), a large-scale, real-captured dataset containing over 30,000 images featuring 200 unique objects, each of which is presented across varied positions and scenes. ORIDa has two types of data: factual-counterfactual sets and factual-only scenes. The factual-counterfactual sets consist of four factual images showing an object in different positions within a scene and a single counterfactual (or background) image of the scene without the object, resulting in five images per scene. The factual-only scenes include a single image containing an object in a specific context, expanding the variety of environments. To our knowledge, ORIDa is the first publicly available dataset with its scale and complexity for real-world image composition. Extensive analysis and experiments highlight the value of ORIDa as a resource for advancing further research in object compositing.
- Abstract(参考訳): 多様な視覚シーンの画像にオブジェクトを配置・調和させるタスクであるオブジェクト合成は、生成モデルの台頭とともにコンピュータビジョンにおいて重要なタスクとなっている。
しかし、既存のデータセットには、現実世界のシナリオを包括的に探索するために必要な多様性とスケールが欠けている。
ORIDA(Object-centric Real-world Image composition Dataset)は,200個のユニークなオブジェクトを含む3万以上の画像を含む,大規模かつリアルタイムにキャプチャされたデータセットである。
ORIDAには、実数集合と実数のみのシーンという2種類のデータがある。
実写実写セットは、シーン内の異なる位置にある物体を示す4つの実写画像と、対象のないシーンの1つの偽写(または背景)画像からなる。
事実のみのシーンには、特定のコンテキストにオブジェクトを含む単一のイメージが含まれ、さまざまな環境を拡張する。
我々の知る限り、ORIDaは、実世界の画像合成のためのスケールと複雑さを備えた、最初の公開データセットです。
大規模な分析と実験は、オブジェクト合成のさらなる研究を進めるためのリソースとして、ORIDAの価値を強調している。
関連論文リスト
- Learning Global Object-Centric Representations via Disentangled Slot Attention [38.78205074748021]
本稿では,AIシステムに人間のような能力を持たせることによって,シーンを横断するオブジェクトを識別し,グローバルなオブジェクト中心表現の集合を学習することで,特定のオブジェクトを含む多様なシーンを生成する,新たなオブジェクト中心学習手法を提案する。
実験により,提案手法の有効性を実証し,グローバルなオブジェクト中心表現学習,オブジェクト識別,特定のオブジェクトを用いたシーン生成,シーン分解に顕著な習熟性を示した。
論文 参考訳(メタデータ) (2024-10-24T14:57:00Z) - 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - ImageSubject: A Large-scale Dataset for Subject Detection [9.430492045581534]
主に被写体は、写真家が強調したいものなので、通常、画像やビデオの中に存在します。
主対象を検出することは、機械が画像やビデオの内容を理解するのを助ける重要な技術である。
我々は、オブジェクトのレイアウトを理解し、その中の主要な対象を見つけるために、モデルのトレーニングを目標とする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2022-01-09T22:49:59Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene
Understanding [8.720130442653575]
Hypersimは、総合的な屋内シーン理解のための合成データセットである。
室内461のシーンを77,400枚生成し,詳細なピクセルごとのラベルとそれに対応する地平線形状を推定した。
論文 参考訳(メタデータ) (2020-11-04T20:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。