論文の概要: GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer
- arxiv url: http://arxiv.org/abs/2510.16136v1
- Date: Fri, 17 Oct 2025 18:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.864136
- Title: GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer
- Title(参考訳): GuideFlow3D: 外観伝達のための最適化ガイド付き整流
- Authors: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni,
- Abstract要約: 本稿では3Dアセットに外観を移すためのユニバーサルガイダンスにインスパイアされた原則的アプローチを提案する。
提案手法は, テクスチャと幾何学的詳細を入力3Dアセットに伝達し, 質的, 定量的にベースラインを上回る。
そこで我々は,GPTに基づくシステムを用いて,出力を客観的にランク付けし,ロバストで人間的な評価を確実にする。
- 参考スコア(独自算出の注目度): 29.99124795548013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.
- Abstract(参考訳): 外観オブジェクト(画像やテキストなど)の異なる表現を使って3Dアセットに外観を移すことは、ゲーム、拡張現実、デジタルコンテンツ制作といった幅広い産業に応用されていることから、関心を集めている。
しかし、入力オブジェクトと外観オブジェクトの間の幾何学が著しく異なる場合、最先端の手法は依然として失敗する。
直感的なアプローチは直接3D生成モデルを適用することですが、最終的には魅力的な結果が得られません。
代わりに、普遍的なガイダンスにインスパイアされた原則的なアプローチを提案する。
画像やテキストに条件付けされた事前学習された修正フローモデルを考えると、トレーニング不要な手法は定期的にガイダンスを追加することでサンプリングプロセスと相互作用する。
このガイダンスは、識別可能な損失関数としてモデル化することができ、外観と自己相似性に対する部分認識的損失を含む2種類のガイダンスを実験的に実験する。
提案手法は, テクスチャと幾何学的詳細を入力3Dアセットに伝達し, 質的, 定量的にベースラインを上回ることを示す。
また,局所的な詳細に焦点を絞ったり,異種入力を比較することができないため,真理データがないため,従来のメトリクスはタスクを評価するのに適していないことも示している。
そこで我々は,GPTに基づくシステムを用いて,出力を客観的にランク付けし,ロバストで人間的な評価を確実にし,ユーザ調査によりさらに確認した。
実証されたシナリオ以外にも,本手法は汎用的であり,様々な種類の拡散モデルや誘導関数に拡張することができる。
関連論文リスト
- DiffSim: Taming Diffusion Models for Evaluating Visual Similarity [19.989551230170584]
本稿では,生成モデルにおける視覚的類似度を測定するDiffSim法を提案する。
Denoising U-Netの注目層に特徴を合わせることで、DiffSimは外観とスタイルの類似性の両方を評価する。
また,Sref と IP ベンチマークを導入し,視覚的類似性の評価を行った。
論文 参考訳(メタデータ) (2024-12-19T07:00:03Z) - Refining 3D Point Cloud Normal Estimation via Sample Selection [13.207964615561261]
我々は,グローバルな情報と様々な制約機構を組み込むことにより,正規推定の基本的枠組みを導入し,既存モデルを拡張した。
また,非オブジェクト指向タスクと非オブジェクト指向タスクの両方における最先端性能を達成し,推定された非オブジェクト指向の正規性を補正するために,既存の配向手法を利用する。
論文 参考訳(メタデータ) (2024-05-20T02:06:10Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision [0.0]
3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。
コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。