論文の概要: HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D
- arxiv url: http://arxiv.org/abs/2312.15980v1
- Date: Tue, 26 Dec 2023 10:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:19:35.202530
- Title: HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D
- Title(参考訳): HarmonyView: 一画像から3Dへの一貫性と多様性の調和
- Authors: Sangmin Woo, Byeongjun Park, Hyojun Go, Jin-Young Kim, Changick Kim
- Abstract要約: 単一画像の3D生成における2つの複雑な側面、すなわち一貫性と多様性を分解する単純な拡散サンプリング手法であるHarmonyViewを紹介した。
実験では、HarmonyViewは調和の取れたバランスを達成し、一貫性と多様性の両面で勝利のシナリオを実証している。
- 参考スコア(独自算出の注目度): 19.373733104929325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in single-image 3D generation highlights the importance of
multi-view coherency, leveraging 3D priors from large-scale diffusion models
pretrained on Internet-scale images. However, the aspect of novel-view
diversity remains underexplored within the research landscape due to the
ambiguity in converting a 2D image into 3D content, where numerous potential
shapes can emerge. Here, we aim to address this research gap by simultaneously
addressing both consistency and diversity. Yet, striking a balance between
these two aspects poses a considerable challenge due to their inherent
trade-offs. This work introduces HarmonyView, a simple yet effective diffusion
sampling technique adept at decomposing two intricate aspects in single-image
3D generation: consistency and diversity. This approach paves the way for a
more nuanced exploration of the two critical dimensions within the sampling
process. Moreover, we propose a new evaluation metric based on CLIP image and
text encoders to comprehensively assess the diversity of the generated views,
which closely aligns with human evaluators' judgments. In experiments,
HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in
both consistency and diversity.
- Abstract(参考訳): 単一画像3d生成の最近の進歩は、インターネット上の画像に事前学習された大規模拡散モデルからの3dプリミティブを活用して、マルチビューコヒーレンシの重要性を強調している。
しかし、2D画像を3Dコンテンツに変換するという曖昧さにより、新しい視点の多様性の側面は研究現場でまだ過小評価されていない。
ここでは、一貫性と多様性の両方を同時に取り組むことにより、この研究のギャップに対処することを目指している。
しかし、これらの2つの側面のバランスを取ることは、その固有のトレードオフのためにかなりの課題となる。
この研究は、単一画像3d生成における2つの複雑な側面、一貫性と多様性を分解する、単純かつ効果的な拡散サンプリング技術であるharmonyviewを紹介している。
このアプローチはサンプリングプロセス内の2つの重要な次元のより微妙な探索の道を開く。
さらに,クリップ画像とテキストエンコーダに基づく新たな評価基準を提案し,人間の評価と密接に一致する,生成されたビューの多様性を包括的に評価する。
実験では、HarmonyViewは調和の取れたバランスを達成し、一貫性と多様性の両面で勝利のシナリオを実証している。
関連論文リスト
- MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文 参考訳(メタデータ) (2024-08-26T12:10:52Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。