論文の概要: PIV3CAMS: a multi-camera dataset for multiple computer vision problems and its application to novel view-point synthesis
- arxiv url: http://arxiv.org/abs/2407.18695v1
- Date: Fri, 26 Jul 2024 12:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 13:30:50.932673
- Title: PIV3CAMS: a multi-camera dataset for multiple computer vision problems and its application to novel view-point synthesis
- Title(参考訳): 複数のコンピュータビジョン問題のためのマルチカメラデータセットPIV3CAMSと新しい視点合成への応用
- Authors: Sohyeong Kim, Martin Danelljan, Radu Timofte, Luc Van Gool, Jean-Philippe Thiran,
- Abstract要約: この論文では、3つのCAMeraS、すなわちPIV3CAMSからPaired Image and Videoのデータを紹介している。
PIV3CAMSデータセットは8385対の画像と82対のビデオで構成されている。
本稿では,現在最先端のアルゴリズムの再構築に加えて,深度情報を幾何的に統合する代替モデルについても検討する。
- 参考スコア(独自算出の注目度): 120.4361056355332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The modern approaches for computer vision tasks significantly rely on machine learning, which requires a large number of quality images. While there is a plethora of image datasets with a single type of images, there is a lack of datasets collected from multiple cameras. In this thesis, we introduce Paired Image and Video data from three CAMeraS, namely PIV3CAMS, aimed at multiple computer vision tasks. The PIV3CAMS dataset consists of 8385 pairs of images and 82 pairs of videos taken from three different cameras: Canon D5 Mark IV, Huawei P20, and ZED stereo camera. The dataset includes various indoor and outdoor scenes from different locations in Zurich (Switzerland) and Cheonan (South Korea). Some of the computer vision applications that can benefit from the PIV3CAMS dataset are image/video enhancement, view interpolation, image matching, and much more. We provide a careful explanation of the data collection process and detailed analysis of the data. The second part of this thesis studies the usage of depth information in the view synthesizing task. In addition to the regeneration of a current state-of-the-art algorithm, we investigate several proposed alternative models that integrate depth information geometrically. Through extensive experiments, we show that the effect of depth is crucial in small view changes. Finally, we apply our model to the introduced PIV3CAMS dataset to synthesize novel target views as an example application of PIV3CAMS.
- Abstract(参考訳): コンピュータビジョンタスクの現代的なアプローチは、大量の品質画像を必要とする機械学習に大きく依存している。
単一のタイプのイメージを持つ多数の画像データセットが存在する一方で、複数のカメラから収集されたデータセットが不足している。
本稿では,複数のコンピュータビジョンタスクを対象とした3つのCAMeraS(PIV3CAMS)のPaired Image and Videoデータを紹介する。
PIV3CAMSデータセットは8385枚の画像と、Canon D5 Mark IV、Huawei P20、ZEDステレオカメラから撮影した82枚のビデオで構成されている。
データセットには、チューリッヒ(スイス)とチェオナン(韓国)の様々な場所から、様々な屋内および屋外のシーンが含まれている。
PIV3CAMSデータセットの恩恵を受けることができるコンピュータビジョンアプリケーションは、画像/映像の強化、ビュー補間、画像マッチングなどである。
本稿では,データ収集プロセスと詳細なデータ解析について,慎重に解説する。
この論文の第2部では、ビュー合成タスクにおける深度情報の利用について研究している。
本稿では,現在最先端のアルゴリズムの再構築に加えて,深度情報を幾何的に統合する代替モデルについても検討する。
広範にわたる実験により,微視的変化には深度の影響が不可欠であることが示唆された。
最後に、導入したPIV3CAMSデータセットに適用し、PIV3CAMSの例として、新規なターゲットビューを合成する。
関連論文リスト
- 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - Replay: Multi-modal Multi-view Acted Videos for Casual Holography [76.49914880351167]
Replayは、社会的に対話する人間のマルチビュー、マルチモーダルビデオのコレクションである。
全体として、データセットには4000分以上の映像と700万のタイムスタンプ付き高解像度フレームが含まれている。
Replayデータセットには、新規ビュー合成、3D再構成、新規ビュー音響合成、人体と顔の分析、生成モデルの訓練など、多くの潜在的な応用がある。
論文 参考訳(メタデータ) (2023-07-22T12:24:07Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - EVIMO2: An Event Camera Dataset for Motion Segmentation, Optical Flow,
Structure from Motion, and Visual Inertial Odometry in Indoor Scenes with
Monocular or Stereo Algorithms [10.058432912712396]
データセットは640$times$480のイベントカメラから41分のデータと、2080$times$1552のクラシックカラーカメラで構成されている。
データセットの173のシーケンスは3つのカテゴリに分けられる。
いくつかのシーケンスは、従来のカメラが故障した低照度環境で記録された。
論文 参考訳(メタデータ) (2022-05-06T20:09:18Z) - Multi-View Video-Based 3D Hand Pose Estimation [11.65577683784217]
提案するマルチビュービデオベース3Dハンドデータセットは,手動のマルチビュービデオと地動3Dポーズラベルから構成される。
私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。
次に、手の視覚的埋め込みを得るために、画像エンコーダからなるニューラルネットワークであるMuViHandNetを実装した。
論文 参考訳(メタデータ) (2021-09-24T05:20:41Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - YCB-M: A Multi-Camera RGB-D Dataset for Object Recognition and 6DoF Pose
Estimation [2.9972063833424216]
7つの異なる3Dカメラで撮影され、合計49,294フレームで撮影された32のシーンのデータセットを提示する。
これにより、使用するカメラの仕様に対するポーズ推定アルゴリズムの感度を評価することができる。
論文 参考訳(メタデータ) (2020-04-24T11:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。