論文の概要: Learning from THEODORE: A Synthetic Omnidirectional Top-View Indoor
Dataset for Deep Transfer Learning
- arxiv url: http://arxiv.org/abs/2011.05719v1
- Date: Wed, 11 Nov 2020 11:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:15:48.805399
- Title: Learning from THEODORE: A Synthetic Omnidirectional Top-View Indoor
Dataset for Deep Transfer Learning
- Title(参考訳): THEODOREから学ぶ: 深層移動学習のための合成一方向トップビュー屋内データセット
- Authors: Tobias Scheck, Roman Seidel, Gangolf Hirtz
- Abstract要約: TheODOREは,14種類の高解像度魚眼画像10万点を含む,新しい大規模屋内データセットである。
リビングルーム、異なる人間キャラクター、インテリアテクスチャの3D仮想環境を作成します。
我々のデータセットは、オブジェクト検出のための微調整CNNに適していることを示す。
- 参考スコア(独自算出の注目度): 4.297070083645049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work about synthetic indoor datasets from perspective views has shown
significant improvements of object detection results with Convolutional Neural
Networks(CNNs). In this paper, we introduce THEODORE: a novel, large-scale
indoor dataset containing 100,000 high-resolution diversified fisheye images
with 14 classes. To this end, we create 3D virtual environments of living
rooms, different human characters and interior textures. Beside capturing
fisheye images from virtual environments we create annotations for semantic
segmentation, instance masks and bounding boxes for object detection tasks. We
compare our synthetic dataset to state of the art real-world datasets for
omnidirectional images. Based on MS COCO weights, we show that our dataset is
well suited for fine-tuning CNNs for object detection. Through a high
generalization of our models by means of image synthesis and domain
randomization, we reach an AP up to 0.84 for class person on High-Definition
Analytics dataset.
- Abstract(参考訳): 人工屋内データセットに関する最近の研究は、畳み込みニューラルネットワーク(cnns)を用いた物体検出結果の大幅な改善を示している。
本稿では,14種類の高解像度魚眼画像10万点を含む,新しい大規模屋内データセットTheODOREを紹介する。
この目的のために、我々はリビングルームの3次元仮想環境、異なる人間キャラクター、インテリアテクスチャを作成します。
仮想環境から魚眼画像をキャプチャする以外に、セマンティックセグメンテーション、インスタンスマスク、オブジェクト検出タスクのバウンディングボックス用のアノテーションを作成しています。
合成データセットと全方位画像のアート実世界のデータセットの状態を比較した。
MS COCO重みに基づいて、我々のデータセットはオブジェクト検出のための微調整CNNに適していることを示す。
画像合成と領域ランダム化によるモデルの高一般化により、高精細分析データセット上のクラスパーソンに対して最大0.84までAPに達する。
関連論文リスト
- MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene
Scale and Realism Tradeoffs for ObjectGoal Navigation [70.82403156865057]
本研究では,合成3次元シーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。
我々の実験によると、我々の小規模データセットで訓練されたエージェントは、はるかに大きなデータセットで訓練されたエージェントと一致するか、より優れています。
論文 参考訳(メタデータ) (2023-06-20T05:07:23Z) - Ground material classification and for UAV-based photogrammetric 3D data
A 2D-3D Hybrid Approach [1.3359609092684614]
近年,物理環境を表す3次元仮想データを作成するために,多くの領域でフォトグラム法が広く用いられている。
これらの最先端技術は、迅速な3D戦場再建、仮想訓練、シミュレーションを目的として、アメリカ陸軍と海軍の注意を引き付けている。
論文 参考訳(メタデータ) (2021-09-24T22:29:26Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - SIDOD: A Synthetic Image Dataset for 3D Object Pose Recognition with
Distractors [10.546457120988494]
このデータセットには144kのステレオ画像ペアが含まれており、最大10個のオブジェクトと3つのフォトリアリスティック仮想環境の18のカメラ視点を合成的に組み合わせている。
ドメインのランダム化に対する我々のアプローチを説明し、データセットを作成した決定について考察する。
論文 参考訳(メタデータ) (2020-08-12T00:14:19Z) - Detection and Segmentation of Custom Objects using High Distraction
Photorealistic Synthetic Data [0.5076419064097732]
合成データを用いてインスタンスセグメンテーションを行うための簡便で有用な手法を示す。
目標は、カスタムオブジェクトの実際のデータを手動で収集し、注釈付けすることで、高いパフォーマンスを達成することである。
このホワイトペーパーは、光実写シミュレーションデータが現実の応用に利用できるという強い証拠を提供する。
論文 参考訳(メタデータ) (2020-07-28T16:33:42Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。