論文の概要: T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities
- arxiv url: http://arxiv.org/abs/2305.14674v1
- Date: Wed, 24 May 2023 03:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:07:48.691135
- Title: T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities
- Title(参考訳): t1:統一視覚モダリティにおける拡散確率場の高分解能化
- Authors: Kangfu Mei and Mo Zhou and Vishal M. Patel
- Abstract要約: 拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
- 参考スコア(独自算出の注目度): 69.16656086708291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Probabilistic Field (DPF) models the distribution of continuous
functions defined over metric spaces. While DPF shows great potential for
unifying data generation of various modalities including images, videos, and 3D
geometry, it does not scale to a higher data resolution. This can be attributed
to the ``scaling property'', where it is difficult for the model to capture
local structures through uniform sampling. To this end, we propose a new model
comprising of a view-wise sampling algorithm to focus on local structure
learning, and incorporating additional guidance, e.g., text description, to
complement the global geometry. The model can be scaled to generate
high-resolution data while unifying multiple modalities. Experimental results
on data generation in various modalities demonstrate the effectiveness of our
model, as well as its potential as a foundation framework for scalable
modality-unified visual content generation.
- Abstract(参考訳): 拡散確率場(dpf)は距離空間上で定義される連続関数の分布をモデル化する。
dpfは、画像、ビデオ、および3dジオメトリを含む様々なモダリティのデータ生成を統一する大きな可能性を示しているが、より高いデータ解像度にはスケールしない。
これは、モデルが一様サンプリングによって局所構造をキャプチャすることが困難である ``scaling property''' に起因する可能性がある。
そこで本研究では,局所構造学習に焦点を当てたビューワイズサンプリングアルゴリズムと,グローバルな幾何学を補完するテキスト記述などの追加ガイダンスを取り入れた新たなモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度データを生成するためにスケールできる。
様々なモダリティにおけるデータ生成実験の結果は、我々のモデルの有効性と、スケーラブルなモダリティ統一ビジュアルコンテンツ生成の基盤となる可能性を示している。
関連論文リスト
- Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds [6.69660410213287]
我々は,3次元表現学習と生成学習を深く統合する利点を探るため,Point-MGEと呼ばれる革新的なフレームワークを提案する。
形状分類において、Point-MGEはModelNet40データセットで94.2%(+1.0%)、ScanObjectNNデータセットで92.9%(+5.5%)の精度を達成した。
また,非条件条件と条件条件条件条件の両方で,Point-MGEが高品質な3D形状を生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-06-25T07:57:03Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Learning transformer-based heterogeneously salient graph representation for multimodal remote sensing image classification [42.15709954199397]
本稿では,変圧器を用いたヘテロジニアサリエントグラフ表現法(THSGR)を提案する。
まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。
自己アテンションフリーなマルチ畳み込み変調器は、効果的かつ効率的な長期依存性モデリングのために設計されている。
論文 参考訳(メタデータ) (2023-11-17T04:06:20Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Learning Structured Output Representations from Attributes using Deep
Conditional Generative Models [0.0]
本稿では,条件付き変分オートエンコーダアーキテクチャを再現し,属性を条件付き画像でトレーニングする。
毛髪の色や眼鏡などの特徴の異なる新しい顔と、異なる鳥類種のサンプルを創り出そうとする。
論文 参考訳(メタデータ) (2023-04-30T17:25:31Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Diffusion Probabilistic Fields [42.428882785136295]
距離空間上で定義された連続関数上の分布を学習する拡散モデルである拡散確率場(DPF)を導入する。
我々は,非ユークリッド距離空間上で定義されたフィールド上の分布のモデル化に加えて,DPFが2次元画像や3次元幾何学などの異なるモダリティを効果的に扱うことを実証的に示す。
論文 参考訳(メタデータ) (2023-03-01T01:37:24Z) - Relational VAE: A Continuous Latent Variable Model for Graph Structured
Data [0.0]
シミュレーションおよび実風力発電モニタリングデータに対する構造的確率密度モデルの適用例を示す。
ソースコードとシミュレートされたデータセットを合わせてリリースします。
論文 参考訳(メタデータ) (2021-06-30T13:24:27Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。