論文の概要: Dual-Camera Smooth Zoom on Mobile Phones
- arxiv url: http://arxiv.org/abs/2404.04908v1
- Date: Sun, 7 Apr 2024 10:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:01:21.918077
- Title: Dual-Camera Smooth Zoom on Mobile Phones
- Title(参考訳): 携帯電話でのデュアルカメラスムースズーム
- Authors: Renlong Wu, Zhilu Zhang, Yu Yang, Wangmeng Zuo,
- Abstract要約: 我々は、スムーズなズームプレビューを実現するために、新しいタスク、すなわちデュアルカメラスムーズズーム(DCSZ)を導入する。
フレームモデル (FI) 技術は潜在的な解決法であるが、地軸収集に苦慮している。
連続型仮想カメラを組み込んだデータファクトリソリューションを提案し,シーンの再構成された3DモデルをレンダリングしてDCSZデータを生成する。
- 参考スコア(独自算出の注目度): 55.4114152554769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When zooming between dual cameras on a mobile, noticeable jumps in geometric content and image color occur in the preview, inevitably affecting the user's zoom experience. In this work, we introduce a new task, ie, dual-camera smooth zoom (DCSZ) to achieve a smooth zoom preview. The frame interpolation (FI) technique is a potential solution but struggles with ground-truth collection. To address the issue, we suggest a data factory solution where continuous virtual cameras are assembled to generate DCSZ data by rendering reconstructed 3D models of the scene. In particular, we propose a novel dual-camera smooth zoom Gaussian Splatting (ZoomGS), where a camera-specific encoding is introduced to construct a specific 3D model for each virtual camera. With the proposed data factory, we construct a synthetic dataset for DCSZ, and we utilize it to fine-tune FI models. In addition, we collect real-world dual-zoom images without ground-truth for evaluation. Extensive experiments are conducted with multiple FI methods. The results show that the fine-tuned FI models achieve a significant performance improvement over the original ones on DCSZ task. The datasets, codes, and pre-trained models will be publicly available.
- Abstract(参考訳): モバイルでのデュアルカメラ間のズームでは、幾何学的内容や画像の色がプレビューで顕著に変化し、ユーザのズーム体験に必然的に影響を及ぼす。
本研究では,スムーズなズームプレビューを実現するために,新しいタスクであるデュアルカメラスムーズズーム(DCSZ)を導入する。
フレーム補間 (FI) 技術は潜在的な解決法であるが、地道収集に苦慮している。
そこで本研究では,連続型仮想カメラを組み込んだデータファクトリソリューションを提案し,シーンの再構成3DモデルをレンダリングしてDCSZデータを生成する。
具体的には、カメラ固有の符号化を導入し、仮想カメラごとに特定の3Dモデルを構築する、新しいデュアルカメラスムーズ・ズーム・ガウス・スプレイティング(ZoomGS)を提案する。
提案するデータファクトリでは,DCSZのための合成データセットを構築し,それを微細なFIモデルに活用する。
さらに,実世界における地絡みのないデュアルズーム画像を収集し,評価を行った。
複数のFI法を用いて大規模な実験を行った。
その結果, 微調整FIモデルでは, DCSZタスクにおける元のモデルに比べて, 大幅な性能向上が達成された。
データセット、コード、事前トレーニングされたモデルが公開される。
関連論文リスト
- Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration [34.18403601269181]
DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。
我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-11-26T09:04:37Z) - GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring [50.72230109855628]
本稿では,新しい手法を用いて合成されたリアルなぼやけた画像のデータセットであるGS-Blurを提案する。
まず,3Dガウス・スプレイティング(3DGS)を用いて多視点画像から3Dシーンを再構成し,ランダムに生成された運動軌跡に沿ってカメラビューを移動させてぼやけた画像を描画する。
GS-Blurの再構築に様々なカメラトラジェクトリを採用することで、我々のデータセットは現実的で多様な種類のぼかしを含み、現実世界のぼかしをうまく一般化する大規模なデータセットを提供する。
論文 参考訳(メタデータ) (2024-10-31T06:17:16Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-06-18T23:14:29Z) - Learning to Zoom and Unzoom [49.587516562644836]
入力画像にズームインし、空間的特徴を計算し、次に「アンゾム」して任意の変形を反転させる。
さまざまなタスクやデータセットを評価することで、この汎用性を実証する。
論文 参考訳(メタデータ) (2023-03-27T17:03:30Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。