Fugu-MT 論文翻訳(概要): Efficient-3DiM: Learning a Generalizable Single-image Novel-view Synthesizer in One Day

論文の概要: Efficient-3DiM: Learning a Generalizable Single-image Novel-view Synthesizer in One Day

arxiv url: http://arxiv.org/abs/2310.03015v1
Date: Wed, 4 Oct 2023 17:57:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 13:18:10.662667
Title: Efficient-3DiM: Learning a Generalizable Single-image Novel-view Synthesizer in One Day
Title（参考訳）: efficient-3dim: 1日で一般化した1画像ノベルビューシンセサイザーの学習
Authors: Yifan Jiang, Hao Tang, Jen-Hao Rick Chang, Liangchen Song, Zhangyang Wang, Liangliang Cao
Abstract要約: シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
参考スコア（独自算出の注目度）: 63.96075838322437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of novel view synthesis aims to generate unseen perspectives of an object or scene from a limited set of input images. Nevertheless, synthesizing novel views from a single image still remains a significant challenge in the realm of computer vision. Previous approaches tackle this problem by adopting mesh prediction, multi-plain image construction, or more advanced techniques such as neural radiance fields. Recently, a pre-trained diffusion model that is specifically designed for 2D image synthesis has demonstrated its capability in producing photorealistic novel views, if sufficiently optimized on a 3D finetuning task. Although the fidelity and generalizability are greatly improved, training such a powerful diffusion model requires a vast volume of training data and model parameters, resulting in a notoriously long time and high computational costs. To tackle this issue, we propose Efficient-3DiM, a simple but effective framework to learn a single-image novel-view synthesizer. Motivated by our in-depth analysis of the inference process of diffusion models, we propose several pragmatic strategies to reduce the training overhead to a manageable scale, including a crafted timestep sampling strategy, a superior 3D feature extractor, and an enhanced training scheme. When combined, our framework is able to reduce the total training time from 10 days to less than 1 day, significantly accelerating the training process under the same computational platform (one instance with 8 Nvidia A100 GPUs). Comprehensive experiments are conducted to demonstrate the efficiency and generalizability of our proposed method.
Abstract（参考訳）: 新規ビュー合成の課題は、限られた一連の入力画像からオブジェクトやシーンの見えない視点を生成することである。それでも、単一の画像から新しいビューを合成することは、コンピュータビジョンの領域において重要な課題である。従来のアプローチでは、メッシュ予測やマルチプレーン画像構築、あるいはニューラルラディアンスフィールドのようなより高度な技術を採用することでこの問題に対処している。近年,2次元画像合成に特化して設計された事前学習拡散モデルが,3次元ファインタニングタスクに十分に最適化されても,フォトリアリスティックな斬新なビューを生成する能力を示した。忠実度と一般化性は大幅に改善されているが、そのような強力な拡散モデルの訓練には大量のトレーニングデータとモデルパラメータが必要であるため、非常に長い時間と高い計算コストがかかる。この問題に対処するために,シングルイメージのノベルビューシンセサイザーを学習するための,シンプルかつ効果的なフレームワークであるEfficient-3DiMを提案する。拡散モデルの推論過程を詳細に分析した結果,実時間ステップサンプリング戦略,優れた3次元特徴抽出器,強化されたトレーニングスキームなど,トレーニングオーバーヘッドを管理可能な規模に削減するための実用的戦略が提案されている。組み合わせることで、当社のフレームワークは、合計トレーニング時間を10日間から1日未満に短縮し、同じ計算プラットフォーム(nvidia a100 gpu 8台)でトレーニングプロセスを著しく加速することが可能になります。提案手法の効率性と一般化性を示すための総合実験を行った。

関連論文リスト

Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion [32.38584862347954]
この目的を達成するために,動的リフレッシュ戦略(MMDRFuse)を用いた軽量蒸留ミニモデルを提案する。モデルパシモニーを追求するために、合計で113のトレーニング可能なパラメータ(0.44KB)を持つ非常に小さな畳み込みネットワークを得る。いくつかの公開データセットの実験により,本手法はモデル効率と複雑性の点で有望な優位性を示すことが示された。
論文参考訳（メタデータ） (2024-08-28T08:52:33Z)
One-Shot Image Restoration [0.0]
提案手法の適用性, 堅牢性, 計算効率を, 教師付き画像の劣化と超解像に応用できることを実験的に示す。本結果は,学習モデルのサンプル効率,一般化,時間複雑性を大幅に改善したことを示す。
論文参考訳（メタデータ） (2024-04-26T14:03:23Z)
GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time [112.32349668385635]
GGRtは、現実のカメラポーズの必要性を軽減する、一般化可能な新しいビュー合成のための新しいアプローチである。最初のポーズフリーの一般化可能な3D-GSフレームワークとして、GGRtは$ge$5 FPSで、リアルタイムレンダリングは$ge$100 FPSで実現している。
論文参考訳（メタデータ） (2024-03-15T09:47:35Z)
E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか? まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文参考訳（メタデータ） (2024-01-11T18:59:14Z)
Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文参考訳（メタデータ） (2023-05-25T14:56:03Z)
Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文参考訳（メタデータ） (2023-04-13T17:59:01Z)
ProbNVS: Fast Novel View Synthesis with Learned Probability-Guided Sampling [42.37704606186928]
本稿では,MVSの事前学習に基づいて,新しいビュー合成フレームワークを構築することを提案する。本手法は,最先端のベースラインに比べて15～40倍高速なレンダリングを実現する。
論文参考訳（メタデータ） (2022-04-07T14:45:42Z)
Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文参考訳（メタデータ） (2020-06-29T12:53:58Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。