論文の概要: UltraZoom: Generating Gigapixel Images from Regular Photos
- arxiv url: http://arxiv.org/abs/2506.13756v1
- Date: Mon, 16 Jun 2025 17:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.208572
- Title: UltraZoom: Generating Gigapixel Images from Regular Photos
- Title(参考訳): UltraZoom:通常の写真からギガピクセル画像を生成する
- Authors: Jingwei Ma, Vivek Jayaram, Brian Curless, Ira Kemelmacher-Shlizerman, Steven M. Seitz,
- Abstract要約: 我々は,カジュアルにキャプチャされた入力からオブジェクトのギガピクセル分解能画像を生成するシステムであるUltraZoomを提案する。
フルショットイメージ(グロバル、ローディテール)と1つ以上のクローズアップ(ローカル、ハイディテール)が与えられた場合、UltraZoomは、クローズアップ例の詳細な詳細とスケールに合わせてフルイメージをスケールアップする。
- 参考スコア(独自算出の注目度): 24.499935395611143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present UltraZoom, a system for generating gigapixel-resolution images of objects from casually captured inputs, such as handheld phone photos. Given a full-shot image (global, low-detail) and one or more close-ups (local, high-detail), UltraZoom upscales the full image to match the fine detail and scale of the close-up examples. To achieve this, we construct a per-instance paired dataset from the close-ups and adapt a pretrained generative model to learn object-specific low-to-high resolution mappings. At inference, we apply the model in a sliding window fashion over the full image. Constructing these pairs is non-trivial: it requires registering the close-ups within the full image for scale estimation and degradation alignment. We introduce a simple, robust method for getting registration on arbitrary materials in casual, in-the-wild captures. Together, these components form a system that enables seamless pan and zoom across the entire object, producing consistent, photorealistic gigapixel imagery from minimal input.
- Abstract(参考訳): 携帯端末写真などのカジュアルな入力からオブジェクトのギガピクセル分解能画像を生成するシステムであるUltraZoomを提案する。
フルショットイメージ(グロバル、ローディテール)と1つ以上のクローズアップ(ローカル、ハイディテール)が与えられた場合、UltraZoomは、クローズアップ例の詳細な詳細とスケールに合わせてフルイメージをスケールアップする。
これを実現するため、我々はクローズアップからインスタンスごとのペア化データセットを構築し、事前訓練された生成モデルを適用して、オブジェクト固有の低分解能マッピングを学習する。
推測では、全画像上にスライドウィンドウ方式でモデルを適用する。
これらのペアを構築するのは簡単ではない。スケール推定と分解アライメントのために、完全なイメージ内にクローズアップを登録する必要がある。
そこで本研究では,任意の素材に対して,カジュアル・イン・ザ・ワイルドキャプチャーの登録を行うための,シンプルでロバストな手法を提案する。
これらのコンポーネントは、オブジェクト全体をシームレスにパンとズームできるシステムを形成し、最小限の入力から一貫したフォトリアリスティックなギガピクセル画像を生成する。
関連論文リスト
- Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。
我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。
ZoomLDMは、コンテキスト的に正確であり、異なるズームレベルで詳細なコヒーレントな病理像を合成する。
論文 参考訳(メタデータ) (2024-11-25T22:39:22Z) - GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring [50.72230109855628]
本稿では,新しい手法を用いて合成されたリアルなぼやけた画像のデータセットであるGS-Blurを提案する。
まず,3Dガウス・スプレイティング(3DGS)を用いて多視点画像から3Dシーンを再構成し,ランダムに生成された運動軌跡に沿ってカメラビューを移動させてぼやけた画像を描画する。
GS-Blurの再構築に様々なカメラトラジェクトリを採用することで、我々のデータセットは現実的で多様な種類のぼかしを含み、現実世界のぼかしをうまく一般化する大規模なデータセットを提供する。
論文 参考訳(メタデータ) (2024-10-31T06:17:16Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。