Fugu-MT 論文翻訳(概要): GPU-Accelerated Mobile Multi-view Style Transfer

論文の概要: GPU-Accelerated Mobile Multi-view Style Transfer

arxiv url: http://arxiv.org/abs/2003.00706v1
Date: Mon, 2 Mar 2020 08:20:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-27 05:42:07.123074
Title: GPU-Accelerated Mobile Multi-view Style Transfer
Title（参考訳）: gpuアクセラレーションによるモバイルマルチビュースタイル転送
Authors: Puneet Kohli, Saravana Gunaseelan, Jason Orozco, Yiwen Hua, Edward Li, and Nicolas Dahlquist
Abstract要約: 3Dフォトプラットフォームは、コンテンツ作成を容易にするシンプルな画像操作ツールを提供する必要がある。 GPU技術の最近の進歩によって推進されたアーティスティックなニューラルスタイルの転送は、従来の写真を強化するツールのひとつだ。本稿では、ビュー間のスタイル整合性を実現するGPUアクセラレーション方式のマルチビュー転送パイプラインを提案する。
参考スコア（独自算出の注目度）: 0.04618037115403289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An estimated 60% of smartphones sold in 2018 were equipped with multiple rear cameras, enabling a wide variety of 3D-enabled applications such as 3D Photos. The success of 3D Photo platforms (Facebook 3D Photo, Holopix, etc) depend on a steady influx of user generated content. These platforms must provide simple image manipulation tools to facilitate content creation, akin to traditional photo platforms. Artistic neural style transfer, propelled by recent advancements in GPU technology, is one such tool for enhancing traditional photos. However, naively extrapolating single-view neural style transfer to the multi-view scenario produces visually inconsistent results and is prohibitively slow on mobile devices. We present a GPU-accelerated multi-view style transfer pipeline which enforces style consistency between views with on-demand performance on mobile platforms. Our pipeline is modular and creates high quality depth and parallax effects from a stereoscopic image pair.
Abstract（参考訳）: 2018年に販売されたスマートフォンの60%は複数のリアカメラを備えており、3d写真のような幅広い3d対応アプリケーションを可能にしている。 3Dフォトプラットフォーム(Facebook 3Dフォト、Holopixなど)の成功は、安定したユーザー生成コンテンツの流入に依存している。これらのプラットフォームは、従来の写真プラットフォームと同様に、コンテンツ作成を容易にするシンプルな画像操作ツールを提供しなければならない。 GPU技術の最近の進歩によって推進された芸術的ニューラルスタイルの転送は、従来の写真を強化するツールのひとつだ。しかし,マルチビューシナリオへの単一ビューのニューラルスタイルのトランスファーは視覚的に矛盾する結果となり,モバイルデバイスでは極めて遅い。モバイルプラットフォーム上でのオンデマンドパフォーマンスとビュー間のスタイル整合性を実現するために,GPUによるマルチビュースタイル転送パイプラインを提案する。我々のパイプラインはモジュラーであり、立体画像対から高品質な深度とパララックス効果を生み出す。

関連論文リスト

SOAP: Style-Omniscient Animatable Portraits [10.068636728419985]
ソープは、あらゆる肖像画から厳密でトポロジに一貫性のあるアバターを生成するための、様式に精通した枠組みである。提案手法は,24K3次元ヘッド上で学習した多視点拡散モデルを利用する。その結果、テクスチャ化されたアバターはFACSベースのアニメーションをサポートし、眼球や歯と統合され、編まれた髪やアクセサリーのような細部を保存する。
論文参考訳（メタデータ） (2025-05-08T07:56:16Z)
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting [4.011241510647248]
各種信号によって駆動される高忠実で軽量な3DGSベースのフルボディ音声アバターであるTaoAvatarについて述べる。 TaoAvatarは、Apple Vision Proのような高精細ステレオデバイス上で90FPSを維持しながら、様々なデバイスでリアルタイムに実行しながら、最先端のレンダリング品質を実現していることを示す。
論文参考訳（メタデータ） (2025-03-21T10:40:37Z)
T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文参考訳（メタデータ） (2024-12-12T14:48:46Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
Towards Multi-View Consistent Style Transfer with One-Step Diffusion via Vision Conditioning [12.43848969320173]
提案手法により生成した異なる視点からのスティル化画像は、構造的整合性が良く、歪みも少ない、優れた視覚的品質を実現する。本手法は,3次元情報のないスタイリング画像における構造情報と多視点整合性を効果的に保存する。
論文参考訳（メタデータ） (2024-11-15T12:02:07Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2024-09-11T17:52:07Z)
MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices [16.489105620313065]
MobilePortraitは、モーションモデリングと画像合成の両方に外部知識を統合することで、学習の複雑さを低減するワンショットのニューラルヘッドアバター手法である。計算要求の10分の1未満で最先端のパフォーマンスを達成する。モバイルデバイス上で100 FPS以上の速度に到達し、ビデオおよびオーディオ駆動のインプットをサポートすることが検証されている。
論文参考訳（メタデータ） (2024-07-08T08:12:57Z)
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images [54.56070204172398]
本稿では,3次元シーンをスタイリングするための簡易かつ効果的なパイプラインを提案する。我々は、スタイル整列画像-画像拡散モデルにより生成されたスタイリング画像を用いて、ソースNeRFモデルを精細化し、3Dスタイルの転送を行う。本手法は,現実の3Dシーンに多彩な芸術的スタイルを,競争力のある品質で伝達できることを実証する。
論文参考訳（メタデータ） (2024-06-19T09:36:18Z)
MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
MagicDrive3Dは、コントロール可能な3Dストリートシーン生成のための新しいフレームワークである。ロードマップ、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。多様な高品質な3Dドライビングシーンを生成し、任意のビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する。
論文参考訳（メタデータ） (2024-05-23T12:04:51Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
MicroISP: Processing 32MP Photos on Mobile Devices with Deep Learning [114.66037224769005]
エッジデバイスに特化して設計された新しいMicroISPモデルを提案する。提案したソリューションは,モバイルMLライブラリを使用して,最新のスマートフォン上で最大32MPの写真を処理できる。モデルのアーキテクチャは柔軟で、計算能力の異なるデバイスに複雑性を調整することができる。
論文参考訳（メタデータ） (2022-11-08T17:40:50Z)
One Shot 3D Photography [40.83662583097118]
本稿では,3D画像の作成と閲覧を行うエンド・ツー・エンドシステムを提案する。私たちの3D写真は1枚の写真で撮影され、モバイルデバイスで直接処理されます。
論文参考訳（メタデータ） (2020-08-27T17:59:31Z)
MVStylizer: An Efficient Edge-Assisted Video Photorealistic Style Transfer System for Mobile Phones [39.94170753983804]
携帯電話用エッジアシスト型ビデオ転送システムであるMVStylizerを提案する。 MVStylizerは、最先端の方法に比べて、より優れた視覚的品質でスタイリングされたビデオを生成することができる。
論文参考訳（メタデータ） (2020-05-24T00:54:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。