論文の概要: GPU-Accelerated Mobile Multi-view Style Transfer
- arxiv url: http://arxiv.org/abs/2003.00706v1
- Date: Mon, 2 Mar 2020 08:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 05:42:07.123074
- Title: GPU-Accelerated Mobile Multi-view Style Transfer
- Title(参考訳): gpuアクセラレーションによるモバイルマルチビュースタイル転送
- Authors: Puneet Kohli, Saravana Gunaseelan, Jason Orozco, Yiwen Hua, Edward Li,
and Nicolas Dahlquist
- Abstract要約: 3Dフォトプラットフォームは、コンテンツ作成を容易にするシンプルな画像操作ツールを提供する必要がある。
GPU技術の最近の進歩によって推進されたアーティスティックなニューラルスタイルの転送は、従来の写真を強化するツールのひとつだ。
本稿では、ビュー間のスタイル整合性を実現するGPUアクセラレーション方式のマルチビュー転送パイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.04618037115403289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An estimated 60% of smartphones sold in 2018 were equipped with multiple rear
cameras, enabling a wide variety of 3D-enabled applications such as 3D Photos.
The success of 3D Photo platforms (Facebook 3D Photo, Holopix, etc) depend on a
steady influx of user generated content. These platforms must provide simple
image manipulation tools to facilitate content creation, akin to traditional
photo platforms. Artistic neural style transfer, propelled by recent
advancements in GPU technology, is one such tool for enhancing traditional
photos. However, naively extrapolating single-view neural style transfer to the
multi-view scenario produces visually inconsistent results and is prohibitively
slow on mobile devices. We present a GPU-accelerated multi-view style transfer
pipeline which enforces style consistency between views with on-demand
performance on mobile platforms. Our pipeline is modular and creates high
quality depth and parallax effects from a stereoscopic image pair.
- Abstract(参考訳): 2018年に販売されたスマートフォンの60%は複数のリアカメラを備えており、3d写真のような幅広い3d対応アプリケーションを可能にしている。
3Dフォトプラットフォーム(Facebook 3Dフォト、Holopixなど)の成功は、安定したユーザー生成コンテンツの流入に依存している。
これらのプラットフォームは、従来の写真プラットフォームと同様に、コンテンツ作成を容易にするシンプルな画像操作ツールを提供しなければならない。
GPU技術の最近の進歩によって推進された芸術的ニューラルスタイルの転送は、従来の写真を強化するツールのひとつだ。
しかし,マルチビューシナリオへの単一ビューのニューラルスタイルのトランスファーは視覚的に矛盾する結果となり,モバイルデバイスでは極めて遅い。
モバイルプラットフォーム上でのオンデマンドパフォーマンスとビュー間のスタイル整合性を実現するために,GPUによるマルチビュースタイル転送パイプラインを提案する。
我々のパイプラインはモジュラーであり、立体画像対から高品質な深度とパララックス効果を生み出す。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - Towards Multi-View Consistent Style Transfer with One-Step Diffusion via Vision Conditioning [12.43848969320173]
提案手法により生成した異なる視点からのスティル化画像は、構造的整合性が良く、歪みも少ない、優れた視覚的品質を実現する。
本手法は,3次元情報のないスタイリング画像における構造情報と多視点整合性を効果的に保存する。
論文 参考訳(メタデータ) (2024-11-15T12:02:07Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。
われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-11T17:52:07Z) - MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices [16.489105620313065]
MobilePortraitは、モーションモデリングと画像合成の両方に外部知識を統合することで、学習の複雑さを低減するワンショットのニューラルヘッドアバター手法である。
計算要求の10分の1未満で最先端のパフォーマンスを達成する。
モバイルデバイス上で100 FPS以上の速度に到達し、ビデオおよびオーディオ駆動のインプットをサポートすることが検証されている。
論文 参考訳(メタデータ) (2024-07-08T08:12:57Z) - Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images [54.56070204172398]
本稿では,3次元シーンをスタイリングするための簡易かつ効果的なパイプラインを提案する。
我々は、スタイル整列画像-画像拡散モデルにより生成されたスタイリング画像を用いて、ソースNeRFモデルを精細化し、3Dスタイルの転送を行う。
本手法は,現実の3Dシーンに多彩な芸術的スタイルを,競争力のある品質で伝達できることを実証する。
論文 参考訳(メタデータ) (2024-06-19T09:36:18Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - MicroISP: Processing 32MP Photos on Mobile Devices with Deep Learning [114.66037224769005]
エッジデバイスに特化して設計された新しいMicroISPモデルを提案する。
提案したソリューションは,モバイルMLライブラリを使用して,最新のスマートフォン上で最大32MPの写真を処理できる。
モデルのアーキテクチャは柔軟で、計算能力の異なるデバイスに複雑性を調整することができる。
論文 参考訳(メタデータ) (2022-11-08T17:40:50Z) - One Shot 3D Photography [40.83662583097118]
本稿では,3D画像の作成と閲覧を行うエンド・ツー・エンドシステムを提案する。
私たちの3D写真は1枚の写真で撮影され、モバイルデバイスで直接処理されます。
論文 参考訳(メタデータ) (2020-08-27T17:59:31Z) - MVStylizer: An Efficient Edge-Assisted Video Photorealistic Style
Transfer System for Mobile Phones [39.94170753983804]
携帯電話用エッジアシスト型ビデオ転送システムであるMVStylizerを提案する。
MVStylizerは、最先端の方法に比べて、より優れた視覚的品質でスタイリングされたビデオを生成することができる。
論文 参考訳(メタデータ) (2020-05-24T00:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。