論文の概要: Bringing Telepresence to Every Desk
- arxiv url: http://arxiv.org/abs/2304.01197v1
- Date: Mon, 3 Apr 2023 17:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:07:05.956234
- Title: Bringing Telepresence to Every Desk
- Title(参考訳): あらゆるデスクにテレプレゼンスをもたらす
- Authors: Shengze Wang, Ziheng Wang, Ryan Schmelzle, Liujie Zheng, YoungJoong
Kwon, Soumyadip Sengupta, Henry Fuchs
- Abstract要約: 個人用3Dビデオ会議システムは、平均的な消費者にとって財政的にも計算的にも高い品質のビデオをレンダリングしなければならない。
我々は,4台のコンシューマグレードのRGBDカメラのみを必要とするキャプチャ・レンダリングシステムを導入し,ユーザの高品質な自由視点ビデオと環境を合成する。
- 参考スコア(独自算出の注目度): 13.460478658754063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we work to bring telepresence to every desktop. Unlike
commercial systems, personal 3D video conferencing systems must render
high-quality videos while remaining financially and computationally viable for
the average consumer. To this end, we introduce a capturing and rendering
system that only requires 4 consumer-grade RGBD cameras and synthesizes
high-quality free-viewpoint videos of users as well as their environments.
Experimental results show that our system renders high-quality free-viewpoint
videos without using object templates or heavy pre-processing. While not
real-time, our system is fast and does not require per-video optimizations.
Moreover, our system is robust to complex hand gestures and clothing, and it
can generalize to new users. This work provides a strong basis for further
optimization, and it will help bring telepresence to every desk in the near
future. The code and dataset will be made available on our website
https://mcmvmc.github.io/PersonalTelepresence/.
- Abstract(参考訳): 本稿では,すべてのデスクトップにテレプレゼンスを導入する。
商用システムとは異なり、パーソナル3dビデオ会議システムは、平均的な消費者にとって経済的かつ計算可能でありながら、高品質なビデオをレンダリングしなければならない。
そこで本研究では,4種類のrgbdカメラを必要とせず,ユーザと環境の高品質な自由視点映像を合成するキャプチャ・レンダリングシステムを提案する。
実験の結果,オブジェクトテンプレートや重度前処理を使わずに高品質な自由視点映像をレンダリングできることがわかった。
リアルタイムではないものの、システムは高速であり、ビデオ単位の最適化を必要としない。
さらに,複雑な手のジェスチャーや衣服に対してロバストなシステムであり,新たなユーザに一般化することができる。
この作業は、さらなる最適化のための強力な基盤を提供し、近い将来、すべてのデスクにテレプレゼンスをもたらすのに役立ちます。
コードとデータセットは当社のwebサイトhttps://mcmvmc.github.io/personaltelepresence/で利用可能になります。
関連論文リスト
- AIM 2024 Challenge on Efficient Video Super-Resolution for AV1 Compressed Content [56.552444900457395]
ビデオスーパーレゾリューション(VSR)は、特にストリーミングアプリケーションにおいて、低ビットレートおよび低解像度ビデオを強化するための重要なタスクである。
本研究では,これらの課題に対処するために様々な手法をコンパイルし,その解決策はエンドツーエンドのビデオ超解像フレームワークである。
提案されたソリューションは、一般的なケースとして540pから4K(x4)、モバイルデバイス向けに調整された360pから1080p(x3)の2つのアプリケーションのためのビデオアップスケーリングに取り組む。
論文 参考訳(メタデータ) (2024-09-25T18:12:19Z) - One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing [13.74209129258984]
本稿では, ステレオRGB-Dビデオ圧縮をサポートするために, ニューラルプレプロセッサとポストプロセッサのペアでラップすることで, 2次元映像をアップグレードする手法を提案する。
我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。
提案手法は従来のビデオ符号化方式やMV-HEVCと比べ約30%のビットレートを、新しい視点から同一のレンダリング品質で保存する。
論文 参考訳(メタデータ) (2024-04-15T17:56:05Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - Learned Scalable Video Coding For Humans and Machines [39.32955669909719]
本稿では,機械ビジョンタスクをベース層でサポートする最初のエンドツーエンドの学習可能なビデオを紹介し,その拡張レイヤは人間の視聴のための入力再構成をサポートする。
我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
論文 参考訳(メタデータ) (2023-07-18T05:22:25Z) - AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System [51.48191418148764]
ビジョンベースの遠隔操作は、人間レベルの知性をロボットに与え、環境と対話させる。
現在のビジョンベースの遠隔操作システムは、特定のロボットモデルとデプロイ環境に向けて設計・設計されている。
我々は、複数の異なる腕、手、現実、カメラ構成を単一のシステム内でサポートする、統一的で汎用的な遠隔操作システムであるAnyTeleopを提案する。
論文 参考訳(メタデータ) (2023-07-10T14:11:07Z) - ChatVideo: A Tracklet-centric Multimodal and Versatile Video
Understanding System [119.51012668709502]
マルチモーダル・多目的ビデオ理解のためのビジョンを提示し,プロトタイプシステム,システムを提案する。
本システムは,トラックレットを基本映像単位として扱う,トラックレット中心のパラダイムに基づいて構築されている。
検出されたすべてのトラックレットはデータベースに格納され、データベースマネージャを介してユーザと対話する。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Telepresence Video Quality Assessment [13.417089780219326]
ライブストリーミングのためのオンラインビデオ品質予測フレームワークを、視覚的およびオーディオ的品質予測を計算するための別々の経路を持つマルチモーダル学習フレームワークを用いて作成する。
私たちのオールインワンモデルは、パッチ、フレーム、クリップ、オーディオヴィジュアルレベルで正確な品質予測を提供することができます。
論文 参考訳(メタデータ) (2022-07-20T15:02:55Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - A Multi-user Oriented Live Free-viewpoint Video Streaming System Based
On View Interpolation [15.575219833681635]
リアルタイムに高密度な仮想ビューを合成するためのCNNベースのビューアルゴリズムを提案する。
また,マルチユーザ指向のストリーミング戦略を備えた,エンドツーエンドのライブビューポイントシステムを構築した。
論文 参考訳(メタデータ) (2021-12-20T15:17:57Z) - FVV Live: A real-time free-viewpoint video system with consumer
electronics hardware [1.1403672224109256]
FVV Liveは、低コストでリアルタイムな操作のために設計された、新しいエンドツーエンドの無料視点ビデオシステムである。
このシステムは、コンシューマグレードのカメラとハードウェアを使って高品質のフリー視点ビデオを提供するように設計されている。
論文 参考訳(メタデータ) (2020-07-01T15:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。