論文の概要: Holopix50k: A Large-Scale In-the-wild Stereo Image Dataset
- arxiv url: http://arxiv.org/abs/2003.11172v1
- Date: Wed, 25 Mar 2020 01:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 03:24:35.623226
- Title: Holopix50k: A Large-Scale In-the-wild Stereo Image Dataset
- Title(参考訳): Holopix50k:大口径ステレオ画像データセット
- Authors: Yiwen Hua, Puneet Kohli, Pritish Uplavikar, Anand Ravi, Saravana
Gunaseelan, Jason Orozco, and Edward Li
- Abstract要約: 本稿では,Holopixモバイルソーシャルプラットフォームの利用者が提供した49,368枚の画像ペアからなる,新たなウィジェット内ステレオ画像データセットを提案する。
我々は,ステレオ超解像や自己教師型単眼深度推定などのタスクにおいて,データセットを用いることで結果が大幅に改善されることを実験的に示した。
- 参考スコア(独自算出の注目度): 0.04215938932388721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the mass-market adoption of dual-camera mobile phones, leveraging stereo
information in computer vision has become increasingly important. Current
state-of-the-art methods utilize learning-based algorithms, where the amount
and quality of training samples heavily influence results. Existing stereo
image datasets are limited either in size or subject variety. Hence, algorithms
trained on such datasets do not generalize well to scenarios encountered in
mobile photography. We present Holopix50k, a novel in-the-wild stereo image
dataset, comprising 49,368 image pairs contributed by users of the Holopix
mobile social platform. In this work, we describe our data collection process
and statistically compare our dataset to other popular stereo datasets. We
experimentally show that using our dataset significantly improves results for
tasks such as stereo super-resolution and self-supervised monocular depth
estimation. Finally, we showcase practical applications of our dataset to
motivate novel works and use cases. The Holopix50k dataset is available at
http://github.com/leiainc/holopix50k
- Abstract(参考訳): デュアルカメラ携帯電話の普及に伴い、コンピュータビジョンにおけるステレオ情報の利用がますます重要になっている。
現在の最先端の手法は、学習に基づくアルゴリズムを使用し、トレーニングサンプルの量と品質が結果に大きく影響する。
既存のステレオ画像データセットはサイズも主題も限られている。
したがって、そのようなデータセットで訓練されたアルゴリズムは、モバイル写真で遭遇するシナリオにうまく当てはまらない。
holopix50kは,holopixのモバイルソーシャルプラットフォーム利用者がコントリビュートした49,368枚のステレオ画像データセットである。
本研究では,データ収集プロセスについて記述し,そのデータを他のステレオデータセットと統計的に比較する。
実験では,このデータセットを用いることで,ステレオ超解像や自己教師付き単眼深度推定などのタスクの結果が大幅に向上することを示す。
最後に,新しい作品やユースケースにモチベーションを与えるためのデータセットの実用的応用について紹介する。
holopix50kデータセットはhttp://github.com/leiainc/holopix50kで利用可能
関連論文リスト
- PIV3CAMS: a multi-camera dataset for multiple computer vision problems and its application to novel view-point synthesis [120.4361056355332]
この論文では、3つのCAMeraS、すなわちPIV3CAMSからPaired Image and Videoのデータを紹介している。
PIV3CAMSデータセットは8385対の画像と82対のビデオで構成されている。
本稿では,現在最先端のアルゴリズムの再構築に加えて,深度情報を幾何的に統合する代替モデルについても検討する。
論文 参考訳(メタデータ) (2024-07-26T12:18:29Z) - 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - Deep Image Composition Meets Image Forgery [0.0]
画像偽造は長年研究されてきた。
ディープラーニングモデルは、トレーニングのために大量のラベル付きデータを必要とする。
本研究では,画像合成深層学習モデルを用いて,実生活における操作の質に近いスプライシング画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T17:54:37Z) - An Unbiased Look at Datasets for Visuo-Motor Pre-Training [20.094244564603184]
データセットの選択は、このパラダイムの成功と同じくらい重要です。
従来の視覚データセットは、ビジュオモダ表現学習の驚くほど競争力のある選択肢である。
シミュレーションベンチマークは実世界のパフォーマンスの信頼できるプロキシではないことを示す。
論文 参考訳(メタデータ) (2023-10-13T17:59:02Z) - Efficient Single-Image Depth Estimation on Mobile Devices, Mobile AI &
AIM 2022 Challenge: Report [108.88637766066759]
ディープラーニングベースの単一画像深度推定ソリューションは、IoTプラットフォームとスマートフォン上でリアルタイムのパフォーマンスを示すことができる。
このチャレンジで開発されたモデルは、AndroidやLinuxベースのモバイルデバイスとも互換性がある。
論文 参考訳(メタデータ) (2022-11-07T22:20:07Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - PlantStereo: A Stereo Matching Benchmark for Plant Surface Dense
Reconstruction [6.357148898143271]
そこで我々はPlantStereoという精度の異なる大規模ステレオデータセットを提案する。
PlantStereoには、さまざまな植物の集合をカバーする812のイメージペアが含まれている。
異なるモデルと植物に対する実験により、整数精度において基底真理と比較すると、PlanetStereoが提供する高精度な不均一画像は、ディープラーニングモデルのトレーニング効果を著しく改善できることが示された。
論文 参考訳(メタデータ) (2021-11-30T08:06:16Z) - Learning multiplane images from single views with self-supervision [1.0499611180329804]
CycleMPIは、自己スーパービジョンのための循環訓練戦略を通じて、単一の画像から多面体画像表現を学習することができる。
我々のフレームワークは、トレーニングのためにステレオデータを必要としないので、インターネットから大量のビジュアルデータをトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-18T15:03:08Z) - Learning to See by Looking at Noise [87.12788334473295]
簡単なランダムなプロセスから画像を生成する一連の画像生成モデルについて検討する。
これらは、対照的な損失を伴う視覚表現学習者のトレーニングデータとして使用される。
以上の結果から,実データの構造的特性を捉えることはノイズにとって重要であるが,現実的ではないプロセスでも良好な性能が達成できることが示唆された。
論文 参考訳(メタデータ) (2021-06-10T17:56:46Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。