論文の概要: JointNet: Extending Text-to-Image Diffusion for Dense Distribution
Modeling
- arxiv url: http://arxiv.org/abs/2310.06347v1
- Date: Tue, 10 Oct 2023 06:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 18:39:37.970542
- Title: JointNet: Extending Text-to-Image Diffusion for Dense Distribution
Modeling
- Title(参考訳): JointNet:Dense Distribution Modelingのためのテキスト・画像拡散の拡張
- Authors: Jingyang Zhang, Shiwei Li, Yuanxun Lu, Tian Fang, David McKinnon,
Yanghai Tsin, Long Quan, Yao Yao
- Abstract要約: 画像の結合分布をモデル化するニューラルネットワークアーキテクチャであるJointNetを導入する。
JointNetは、トレーニング済みのテキスト-画像拡散モデルから拡張され、元のネットワークのコピーが新しい高密度なモダリティブランチ用に作成され、RGBブランチと密に接続される。
RGBD拡散を例として用いたJointNetの有効性を実証し,様々なアプリケーションに適用可能であることを示す。
- 参考スコア(独自算出の注目度): 27.681201561863922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce JointNet, a novel neural network architecture for modeling the
joint distribution of images and an additional dense modality (e.g., depth
maps). JointNet is extended from a pre-trained text-to-image diffusion model,
where a copy of the original network is created for the new dense modality
branch and is densely connected with the RGB branch. The RGB branch is locked
during network fine-tuning, which enables efficient learning of the new
modality distribution while maintaining the strong generalization ability of
the large-scale pre-trained diffusion model. We demonstrate the effectiveness
of JointNet by using RGBD diffusion as an example and through extensive
experiments, showcasing its applicability in a variety of applications,
including joint RGBD generation, dense depth prediction, depth-conditioned
image generation, and coherent tile-based 3D panorama generation.
- Abstract(参考訳): 本稿では,画像の結合分布をモデル化する新しいニューラルネットワークアーキテクチャであるjointnetと,さらに深いモダリティ(奥行きマップなど)を提示する。
JointNetは、トレーニング済みのテキスト-画像拡散モデルから拡張され、元のネットワークのコピーが新しい高密度なモダリティブランチ用に作成され、RGBブランチと密に接続される。
RGBブランチはネットワーク微細調整中にロックされ、大規模な事前学習拡散モデルの強力な一般化能力を維持しつつ、新しいモード分布の効率的な学習を可能にする。
rgbd拡散を例に,広範な実験を行い,rgbd生成,濃密深度予測,奥行き条件付き画像生成,コヒーレントタイルを用いた3dパノラマ生成など,様々な用途に適用できることを示すことで,ジョイントネットの有効性を実証した。
関連論文リスト
- DiffX: Guide Your Layout to Cross-Modal Generative Modeling [12.217979042526474]
DiffXと呼ばれる一般的なレイアウト誘導型クロスモーダル生成のための新しい拡散モデルを提案する。
我々のDiffXは、拡散・復調処理を行う、コンパクトで効果的なクロスモーダル生成モデリングパイプラインを提供する。
我々の知る限り、DiffXはレイアウト誘導型クロスモーダル画像生成の最初のモデルである。
論文 参考訳(メタデータ) (2024-07-22T09:05:16Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - DSR-Diff: Depth Map Super-Resolution with Diffusion Model [38.68563026759223]
本稿では,遅延空間内の拡散モデルを用いて,深度マップの超解像誘導を行う新しいCDSRパラダイムを提案する。
提案手法は,最先端手法と比較して,広範囲な実験において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-16T14:18:10Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - PRANC: Pseudo RAndom Networks for Compacting deep models [22.793523211040682]
PRANCはディープモデルの大幅なコンパクト化を可能にする。
本研究では,PRANCを用いて画像分類モデルを構築し,関連する暗黙的ニューラルネットワークをコンパクト化することで画像の圧縮を行う。
論文 参考訳(メタデータ) (2022-06-16T22:03:35Z) - DeHIN: A Decentralized Framework for Embedding Large-scale Heterogeneous
Information Networks [64.62314068155997]
本稿では,異種情報ネットワーク(DeHIN)のための分散埋め込みフレームワークについて述べる。
DeHINは、大きなHINをハイパーグラフとして革新的に定式化するコンテキスト保存分割機構を提供する。
当社のフレームワークでは,木のようなパイプラインを採用することで,効率よくHINを分割する分散戦略を採用しています。
論文 参考訳(メタデータ) (2022-01-08T04:08:36Z) - Densely connected multidilated convolutional networks for dense
prediction tasks [25.75557472306157]
密結合多重化DenseNet(D3Net)と呼ばれる新しいCNNアーキテクチャを提案する。
D3Netは、異なる解像度を同時にモデル化するために単一の層に異なる拡張因子を持つ新しい多重化畳み込みを含む。
Cityscapes を用いた画像セマンティックセグメンテーションタスクと MUSDB18 を用いた音源分離タスクの実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-11-21T05:15:12Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - Connectivity-informed Drainage Network Generation using Deep Convolution
Generative Adversarial Networks [1.7942265700058988]
すでに生成されたネットワークサンプルから排水網を再現するために,DCGAN(Deep Convolutional Generative Adversarial Networks)を適用した。
ドレインジネットワーク画像からドレインジネットワークの各ノード上の流れの方向情報に変換する新しい接続インフォームド手法を開発した。
論文 参考訳(メタデータ) (2020-06-16T20:35:48Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。