論文の概要: Real-Time Position-Aware View Synthesis from Single-View Input
- arxiv url: http://arxiv.org/abs/2412.14005v1
- Date: Wed, 18 Dec 2024 16:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:27.540301
- Title: Real-Time Position-Aware View Synthesis from Single-View Input
- Title(参考訳): シングルビュー入力によるリアルタイム位置認識ビュー合成
- Authors: Manu Gond, Emin Zerman, Sebastian Knorr, Mårten Sjöström,
- Abstract要約: 本稿では,1つの入力画像とターゲットポーズからリアルタイムなビュー合成を実現する軽量な位置認識ネットワークを提案する。
この作業は、ライブおよびインタラクティブなアプリケーションのために、単一の画像からリアルタイムのビュー合成を可能にするための一歩となる。
- 参考スコア(独自算出の注目度): 3.2873782624127834
- License:
- Abstract: Recent advancements in view synthesis have significantly enhanced immersive experiences across various computer graphics and multimedia applications, including telepresence, and entertainment. By enabling the generation of new perspectives from a single input view, view synthesis allows users to better perceive and interact with their environment. However, many state-of-the-art methods, while achieving high visual quality, face limitations in real-time performance, which makes them less suitable for live applications where low latency is critical. In this paper, we present a lightweight, position-aware network designed for real-time view synthesis from a single input image and a target camera pose. The proposed framework consists of a Position Aware Embedding, modeled with a multi-layer perceptron, which efficiently maps positional information from the target pose to generate high dimensional feature maps. These feature maps, along with the input image, are fed into a Rendering Network that merges features from dual encoder branches to resolve both high level semantics and low level details, producing a realistic new view of the scene. Experimental results demonstrate that our method achieves superior efficiency and visual quality compared to existing approaches, particularly in handling complex translational movements without explicit geometric operations like warping. This work marks a step toward enabling real-time view synthesis from a single image for live and interactive applications.
- Abstract(参考訳): 近年のビューシンセサイザーの進歩により、テレプレゼンスやエンターテイメントなど、様々なコンピュータグラフィックスやマルチメディアアプリケーションにおける没入体験が大幅に向上した。
単一の入力ビューから新たな視点を生成できるようにすることで、ビュー合成により、ユーザは環境をよりよく認識し、対話することができる。
しかし、多くの最先端の手法は、高い視覚的品質を達成する一方で、リアルタイムパフォーマンスの制限に直面しているため、低レイテンシが重要なライブアプリケーションには適さない。
本稿では,単一入力画像とターゲットカメラのポーズからリアルタイムなビュー合成を実現する軽量な位置認識ネットワークを提案する。
提案するフレームワークは,多層パーセプトロンをモデルとした位置認識埋め込みで構成され,ターゲットポーズから位置情報を効率的にマッピングし,高次元特徴写像を生成する。
これらの特徴マップは入力画像とともにレンダリングネットワークに入力され、デュアルエンコーダブランチから機能をマージして、高レベルのセマンティクスと低レベルの詳細の両方を解決し、シーンの現実的な新しいビューを生成する。
実験結果から,本手法は既存の手法よりも優れた効率と視覚的品質を実現し,特にワープのような幾何的操作を伴わずに複雑な翻訳動作を処理できることが示唆された。
この作業は、ライブおよびインタラクティブなアプリケーションのために、単一の画像からリアルタイムのビュー合成を可能にするための一歩となる。
関連論文リスト
- Sparse Input View Synthesis: 3D Representations and Reliable Priors [0.8158530638728501]
新しいビュー合成はコンピュータビジョンとグラフィックスの基本的な問題である。
最近の3D表現は、新しい視点からレンダリングされた画像の品質を著しく向上させる。
静的シーンと動的シーンの両方に対するスパース入力新規ビュー合成問題に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-20T18:45:46Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Learning to Render Novel Views from Wide-Baseline Stereo Pairs [26.528667940013598]
本稿では,単一の広線ステレオ画像ペアのみを付与した新しいビュー合成手法を提案する。
スパース観測による新しいビュー合成への既存のアプローチは、誤った3次元形状の復元によって失敗する。
対象光線に対する画像特徴を組み立てるための,効率的な画像空間のエピポーラ線サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-04-17T17:40:52Z) - Consistent View Synthesis with Pose-Guided Diffusion Models [51.37925069307313]
単一の画像から新しいビューを合成することは、多くのバーチャルリアリティーアプリケーションにとって画期的な問題である。
本稿では,ポーズ誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:22Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - Inter-View Depth Consistency Testing in Depth Difference Subspace [6.205922305859478]
マルチビュー深度画像は、自由視点テレビにおいて重要な役割を果たす。
本稿では,深度差分空間における深度整合性試験法を提案する。
また,得られた一貫性情報を用いて仮想ビューの視覚的品質を向上させるビュー合成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-27T18:43:38Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。