論文の概要: FROMAT: Multiview Material Appearance Transfer via Few-Shot Self-Attention Adaptation
- arxiv url: http://arxiv.org/abs/2512.09617v1
- Date: Wed, 10 Dec 2025 13:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.526525
- Title: FROMAT: Multiview Material Appearance Transfer via Few-Shot Self-Attention Adaptation
- Title(参考訳): FROMAT: Few-Shot Self-Attention Adaptation による多視点教材提示
- Authors: Hubert Kompanowski, Varun Jampani, Aaryaman Vasishta, Binh-Son Hua,
- Abstract要約: マルチビュー拡散モデルにおける外観伝達のための軽量適応手法を提案する。
提案手法では,入力画像からオブジェクトの同一性と,参照画像に描画された外見の手がかりとを組み合わせ,マルチビュー一貫性のある出力を生成する。
- 参考スコア(独自算出の注目度): 49.74776147964999
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multiview diffusion models have rapidly emerged as a powerful tool for content creation with spatial consistency across viewpoints, offering rich visual realism without requiring explicit geometry and appearance representation. However, compared to meshes or radiance fields, existing multiview diffusion models offer limited appearance manipulation, particularly in terms of material, texture, or style. In this paper, we present a lightweight adaptation technique for appearance transfer in multiview diffusion models. Our method learns to combine object identity from an input image with appearance cues rendered in a separate reference image, producing multi-view-consistent output that reflects the desired materials, textures, or styles. This allows explicit specification of appearance parameters at generation time while preserving the underlying object geometry and view coherence. We leverage three diffusion denoising processes responsible for generating the original object, the reference, and the target images, and perform reverse sampling to aggregate a small subset of layer-wise self-attention features from the object and the reference to influence the target generation. Our method requires only a few training examples to introduce appearance awareness to pretrained multiview models. The experiments show that our method provides a simple yet effective way toward multiview generation with diverse appearance, advocating the adoption of implicit generative 3D representations in practice.
- Abstract(参考訳): マルチビュー拡散モデルは、視線を横断する空間的整合性を持つコンテンツ作成の強力なツールとして急速に登場し、明示的な幾何学や外観表現を必要とせず、リッチな視覚的リアリズムを提供している。
しかしながら、メッシュやラディアンスフィールドと比較して、既存のマルチビュー拡散モデルは、特に材料、テクスチャ、スタイルの点で、外観操作に制限がある。
本稿では,多視点拡散モデルにおける外観伝達のための軽量適応手法を提案する。
提案手法では,入力画像からのオブジェクト識別と,別個の参照画像に描画された外観キューを組み合わせ,所望の材料,テクスチャ,スタイルを反映した多視点一貫性出力を生成する。
これにより、基礎となるオブジェクトの幾何学とビューコヒーレンスを保ちながら、生成時の外観パラメータの明示的な指定が可能になる。
本稿では,原対象,参照,対象画像の生成に責任を負う3つの拡散分極プロセスを活用し,対象物と対象物の生成に影響を及ぼすため,対象物と対象物から層単位での自己認識特徴の小さなサブセットを集約する逆サンプリングを行う。
本手法では,事前学習したマルチビューモデルに外観認識を導入するために,いくつかのトレーニング例を必要とする。
実験の結果,本手法は多面的外観の多面的生成に対して単純かつ効果的な方法であり,実際に暗黙的な3次元表現が採用されていることを示唆している。
関連論文リスト
- UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features [8.962212671008201]
我々は、類似オブジェクトからの参照画像を利用して、ビュー合成中に強い事前情報を提供するUniViewと呼ばれる新しいモデルを提案する。
我々のUniViewは、新しいビュー合成性能を大幅に改善し、挑戦的なデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-09-05T08:54:57Z) - MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention [83.56588173102594]
1024x1024解像度でのトレーニングを可能にするメッシュアテンションというソリューションを導入しました。
このアプローチは、クロスビュー一貫性を維持しながら、マルチビューアテンションの複雑さを著しく低減します。
この基盤の上にメッシュアテンションブロックを設計し、キーポイント条件付けと組み合わせて、人間固有のマルチビュー拡散モデルMEATを作成します。
論文 参考訳(メタデータ) (2025-03-11T17:50:59Z) - Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。
このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。
複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文 参考訳(メタデータ) (2025-01-30T23:43:06Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。