論文の概要: MVReward: Better Aligning and Evaluating Multi-View Diffusion Models with Human Preferences
- arxiv url: http://arxiv.org/abs/2412.06614v1
- Date: Mon, 09 Dec 2024 16:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:25.206504
- Title: MVReward: Better Aligning and Evaluating Multi-View Diffusion Models with Human Preferences
- Title(参考訳): MVReward: 人選好による多視点拡散モデルの改良と評価
- Authors: Weitao Wang, Haoran Xu, Yuxiao Yang, Zhifang Liu, Jun Meng, Haoqian Wang,
- Abstract要約: 人選好による多視点拡散モデルの改良と評価のための包括的フレームワークを提案する。
また,プラグアンドプレイ型多視点拡散チューニング戦略であるMulti-View Preference Learning (MVP)を提案する。
- 参考スコア(独自算出の注目度): 23.367079270965068
- License:
- Abstract: Recent years have witnessed remarkable progress in 3D content generation. However, corresponding evaluation methods struggle to keep pace. Automatic approaches have proven challenging to align with human preferences, and the mixed comparison of text- and image-driven methods often leads to unfair evaluations. In this paper, we present a comprehensive framework to better align and evaluate multi-view diffusion models with human preferences. To begin with, we first collect and filter a standardized image prompt set from DALL$\cdot$E and Objaverse, which we then use to generate multi-view assets with several multi-view diffusion models. Through a systematic ranking pipeline on these assets, we obtain a human annotation dataset with 16k expert pairwise comparisons and train a reward model, coined MVReward, to effectively encode human preferences. With MVReward, image-driven 3D methods can be evaluated against each other in a more fair and transparent manner. Building on this, we further propose Multi-View Preference Learning (MVP), a plug-and-play multi-view diffusion tuning strategy. Extensive experiments demonstrate that MVReward can serve as a reliable metric and MVP consistently enhances the alignment of multi-view diffusion models with human preferences.
- Abstract(参考訳): 近年では3Dコンテンツ生成が著しく進歩している。
しかし、対応する評価手法はペースを維持するのに苦労する。
自動的なアプローチは人間の好みに合わせることが困難であることが証明されており、テキストと画像駆動手法の混合比較は不公平な評価につながることが多い。
本稿では,多視点拡散モデルと人間の嗜好をよりよく調整し,評価するための包括的枠組みを提案する。
まず,DALL$\cdot$E と Objaverse から設定した標準化された画像プロンプトを抽出・フィルタリングし,複数の多視点拡散モデルを用いて多視点アセットを生成する。
これらの資産の体系的なランキングパイプラインを通じて、16k専門家のペア比較による人間のアノテーションデータセットを取得し、報酬モデルであるMVRewardをトレーニングし、人間の嗜好を効果的に符号化する。
MVRewardでは、画像駆動の3D手法をより公平で透明な方法で互いに評価することができる。
これに基づいて,プラグイン・アンド・プレイ型多視点拡散チューニング戦略であるMulti-View Preference Learning (MVP)を提案する。
MVRewardは信頼性の高い指標として機能し、MVPは人間の嗜好と多視点拡散モデルのアライメントを一貫して強化することを示した。
関連論文リスト
- MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model [15.936267489962122]
ガウス散乱で表される3次元コンテンツに物体を挿入する新しい手法を提案する。
提案手法では,事前学習した安定した映像拡散モデルに基づいて,MVInpainterと呼ばれる多視点拡散モデルを導入する。
MVInpainterの内部では、制御されたより予測可能なマルチビュー生成を可能にする制御ネットベースの条件付きインジェクションモジュールが組み込まれている。
論文 参考訳(メタデータ) (2024-09-25T13:52:50Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic
3D Human Generation [45.88714821939144]
テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。
我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
論文 参考訳(メタデータ) (2023-12-15T11:56:26Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Learning Implicit 3D Representations of Dressed Humans from Sparse Views [31.584157304372425]
本論文では,スパースなカメラビューから服姿の人間の暗黙的な3D表現を学習するエンドツーエンドのアプローチを提案する。
実験では, 提案手法が, 定量的・定性的に標準データに対する技術水準を上回っていることを示した。
論文 参考訳(メタデータ) (2021-04-16T10:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。