論文の概要: SmartPortraits: Depth Powered Handheld Smartphone Dataset of Human
Portraits for State Estimation, Reconstruction and Synthesis
- arxiv url: http://arxiv.org/abs/2204.10211v1
- Date: Thu, 21 Apr 2022 15:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:48:16.895228
- Title: SmartPortraits: Depth Powered Handheld Smartphone Dataset of Human
Portraits for State Estimation, Reconstruction and Synthesis
- Title(参考訳): smartportraits: 状態推定、再構成、合成のための人間の肖像画の奥行き駆動ハンドヘルドスマートフォンデータセット
- Authors: Anastasiia Kornilova, Marsel Faizullin, Konstantin Pakulev, Andrey
Sadkov, Denis Kukushkin, Azat Akhmetyanov, Timur Akhtyamov, Hekmat
Taherinejad, Gonzalo Ferrer
- Abstract要約: 実物および制御不能な条件下で記録された人間の肖像画の1000件のビデオシーケンスのデータセットを提示する。
収集されたデータセットには、異なるポーズとロケーションでキャプチャされた200人が含まれています。
主な目的は、スマートフォンから得られた生測値と下流アプリケーションの間のギャップを埋めることである。
- 参考スコア(独自算出の注目度): 1.981491298222699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a dataset of 1000 video sequences of human portraits recorded in
real and uncontrolled conditions by using a handheld smartphone accompanied by
an external high-quality depth camera. The collected dataset contains 200
people captured in different poses and locations and its main purpose is to
bridge the gap between raw measurements obtained from a smartphone and
downstream applications, such as state estimation, 3D reconstruction, view
synthesis, etc. The sensors employed in data collection are the smartphone's
camera and Inertial Measurement Unit (IMU), and an external Azure Kinect DK
depth camera software synchronized with sub-millisecond precision to the
smartphone system. During the recording, the smartphone flash is used to
provide a periodic secondary source of lightning. Accurate mask of the foremost
person is provided as well as its impact on the camera alignment accuracy. For
evaluation purposes, we compare multiple state-of-the-art camera alignment
methods by using a Motion Capture system. We provide a smartphone
visual-inertial benchmark for portrait capturing, where we report results for
multiple methods and motivate further use of the provided trajectories,
available in the dataset, in view synthesis and 3D reconstruction tasks.
- Abstract(参考訳): 本稿では,手持ち型スマートフォンと外部高画質深度カメラを用いて,実環境および非制御環境に記録された人物像の1000種類の映像系列のデータセットを提案する。
収集されたデータセットは、異なるポーズや場所でキャプチャされた200人を含み、その主な目的は、スマートフォンから得られた生測値と、状態推定、3D再構成、ビュー合成などの下流アプリケーションとのギャップを埋めることである。
データ収集に使用されるセンサーは、スマートフォンのカメラと慣性測定ユニット(IMU)、外部のAzure Kinect DKデプスカメラソフトウェアで、スマートフォンシステムにミリ秒以下の精度で同期する。
録音中、スマートフォンのフラッシュは周期的な二次的な雷源を提供するために使用される。
最上位者の正確なマスクと、そのカメラアライメント精度への影響を提供する。
評価のために,モーションキャプチャシステムを用いて,最先端カメラアライメント手法を複数比較した。
ポートレートキャプチャーのためのスマートフォンのビジュアル・慣性ベンチマークを行い、複数の手法で結果を報告し、データセット、ビュー合成および3D再構成タスクで利用可能なトラジェクトリのさらなる活用を動機づける。
関連論文リスト
- PIV3CAMS: a multi-camera dataset for multiple computer vision problems and its application to novel view-point synthesis [120.4361056355332]
この論文では、3つのCAMeraS、すなわちPIV3CAMSからPaired Image and Videoのデータを紹介している。
PIV3CAMSデータセットは8385対の画像と82対のビデオで構成されている。
本稿では,現在最先端のアルゴリズムの再構築に加えて,深度情報を幾何的に統合する代替モデルについても検討する。
論文 参考訳(メタデータ) (2024-07-26T12:18:29Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - Hand Gestures Recognition in Videos Taken with Lensless Camera [4.49422973940462]
この研究はRaw3dNetというディープラーニングモデルを提案し、レンズレスカメラで撮影した生のビデオから直接手の動きを認識する。
計算資源の保存に加えて、復元不要な手法はプライバシ保護を提供する。
論文 参考訳(メタデータ) (2022-10-15T08:52:49Z) - The Implicit Values of A Good Hand Shake: Handheld Multi-Frame Neural
Depth Refinement [25.637162990928676]
ビューフィンディング中に高密度のマイクロベースラインパララックスキューとキロピクセルのLiDAR深度推定を組み合わせられるかを示す。
提案手法は, 高分解能深度推定をテーブルトップ撮影の「ポイント・アンド・シュート」に応用し, 追加ハードウェア, 人工手の動き, ボタンの押圧以外のユーザインタラクションを必要としない。
論文 参考訳(メタデータ) (2021-11-26T20:24:07Z) - SPEC: Seeing People in the Wild with an Estimated Camera [64.85791231401684]
1枚の画像から視点カメラを推定する最初の3DHPS方式であるSPECを紹介する。
我々は、視野、カメラピッチ、入力画像のロールを推定するためにニューラルネットワークを訓練する。
次に、カメラキャリブレーションを画像の特徴に合わせてロールする新しいネットワークをトレーニングし、これらを組み合わせて3Dのボディ形状とポーズを復元する。
論文 参考訳(メタデータ) (2021-10-01T19:05:18Z) - TUM-VIE: The TUM Stereo Visual-Inertial Event Dataset [50.8779574716494]
イベントカメラはバイオインスパイアされた視覚センサーで、ピクセルごとの明るさの変化を測定する。
これらは、低レイテンシ、高ダイナミックレンジ、高時間分解能、低消費電力など、従来のフレームベースのカメラよりも多くの利点を提供する。
イベントカメラを用いた3次元認識・ナビゲーションアルゴリズムの開発を促進するため,TUM-VIEデータセットを提案する。
論文 参考訳(メタデータ) (2021-08-16T19:53:56Z) - Mesoscopic photogrammetry with an unstabilized phone camera [8.210210271599134]
本稿では,3次元mesoscopic (mm-scale height variation)画像の定量化を可能にする特徴のないフォトグラム計算手法を提案する。
当社のエンドツーエンドのピクセル強度ベースのアプローチは、すべての画像を共同で登録し、整列高さマップを推定します。
また,他の複数フレーム登録問題に適用可能な時間とメモリの削減戦略を提案する。
論文 参考訳(メタデータ) (2020-12-11T00:09:18Z) - Event-based Stereo Visual Odometry [42.77238738150496]
ステレオ・イベント・ベースのカメラ・リグが取得したデータから視覚計測の問題に対する解決策を提案する。
我々は,シンプルかつ効率的な表現を用いて,ステレオイベントベースのデータの時間的一貫性を最大化する。
論文 参考訳(メタデータ) (2020-07-30T15:53:28Z) - A Multi-spectral Dataset for Evaluating Motion Estimation Systems [7.953825491774407]
本稿では,マルチスペクトル運動推定システムの性能評価のための新しいデータセットを提案する。
すべてのシーケンスはハンドヘルドマルチスペクトルデバイスから記録される。
深度画像はMicrosoft Kinect2でキャプチャされ、モダリティ間のステレオマッチングを学習するメリットがある。
論文 参考訳(メタデータ) (2020-07-01T17:11:02Z) - Multi-View Photometric Stereo: A Robust Solution and Benchmark Dataset
for Spatially Varying Isotropic Materials [65.95928593628128]
多視点光度ステレオ技術を用いて3次元形状と空間的に異なる反射率の両方をキャプチャする手法を提案する。
我々のアルゴリズムは、遠近点光源と遠近点光源に適している。
論文 参考訳(メタデータ) (2020-01-18T12:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。