論文の概要: Network Bending of Diffusion Models for Audio-Visual Generation
- arxiv url: http://arxiv.org/abs/2406.19589v1
- Date: Fri, 28 Jun 2024 00:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:10:10.137581
- Title: Network Bending of Diffusion Models for Audio-Visual Generation
- Title(参考訳): オーディオ映像生成のための拡散モデルのネットワーク曲げ
- Authors: Luke Dzwonczyk, Carmine Emanuele Cella, David Ban,
- Abstract要約: アーティストが音楽の視覚化を作成できるツールを開発するための第一歩を提示する。
生成ネットワークの層に変換を適用するプロセスであるネットワーク曲げの画像生成拡散モデルへの応用について検討する。
ネットワーク曲げ演算子にパラメータとして音声特徴を渡すことで,安定拡散を用いた音楽再生ビデオを生成する。
- 参考スコア(独自算出の注目度): 0.09558392439655014
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we present the first steps towards the creation of a tool which enables artists to create music visualizations using pre-trained, generative, machine learning models. First, we investigate the application of network bending, the process of applying transforms within the layers of a generative network, to image generation diffusion models by utilizing a range of point-wise, tensor-wise, and morphological operators. We identify a number of visual effects that result from various operators, including some that are not easily recreated with standard image editing tools. We find that this process allows for continuous, fine-grain control of image generation which can be helpful for creative applications. Next, we generate music-reactive videos using Stable Diffusion by passing audio features as parameters to network bending operators. Finally, we comment on certain transforms which radically shift the image and the possibilities of learning more about the latent space of Stable Diffusion based on these transforms.
- Abstract(参考訳): 本稿では,事前学習,生成,機械学習モデルを用いてアーティストが音楽の可視化を作成できるツールの開発に向けた第一歩について述べる。
まず, 画像生成拡散モデルへのネットワーク曲げ, 生成ネットワークの層内変換の適用について, 点幅, テンソル幅, 形態的演算子の範囲を利用して検討する。
標準的な画像編集ツールでは容易に再現できないものを含む,さまざまな演算子による視覚効果を識別する。
このプロセスは、創造的アプリケーションに役立つ画像生成の連続的、微粒化制御を可能にする。
次に,音声特徴をパラメータとしてネットワーク屈曲演算子に渡すことで,安定拡散を用いた音楽再生ビデオを生成する。
最後に、画像を根本的にシフトさせるある種の変換と、これらの変換に基づいて安定拡散の潜在空間についてより深く学ぶ可能性について述べる。
関連論文リスト
- Neural Network Parameter Diffusion [50.85251415173792]
拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。
本研究は拡散モデルにも適用可能であることを示す。
高性能なニューラルネットワークパラメータを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Visual Prompt Tuning for Generative Transfer Learning [26.895321693202284]
生成的知識伝達による視覚変換器の学習法を提案する。
我々は,映像を自己回帰的あるいは非自己回帰的変換器への視覚トークンのシーケンスとして表現する最先端の生成的視覚変換器を基盤とする。
新しい領域に適応するために、画像トークンシーケンスへのプロンプトと呼ばれる学習可能なトークンを優先するプロンプトチューニングを用いる。
論文 参考訳(メタデータ) (2022-10-03T14:56:05Z) - Image Shape Manipulation from a Single Augmented Training Sample [26.342929563689218]
DeepSIMは、単一の画像に基づく条件付き画像操作のための生成モデルである。
我々のネットワークは、画像のプリミティブ表現と画像自体とのマッピングを学習する。
論文 参考訳(メタデータ) (2021-09-13T17:44:04Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。