論文の概要: Using Multimodal Foundation Models and Clustering for Improved Style Ambiguity Loss
- arxiv url: http://arxiv.org/abs/2407.12009v1
- Date: Thu, 20 Jun 2024 15:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 11:30:12.138200
- Title: Using Multimodal Foundation Models and Clustering for Improved Style Ambiguity Loss
- Title(参考訳): マルチモーダルファンデーションモデルとクラスタリングによる改良型あいまいさ損失
- Authors: James Baker,
- Abstract要約: 我々は、分類器やラベル付きデータセットを訓練する必要のない創造性を近似するために使用される、スタイルあいまいさトレーニングの新たな形態を探求する。
創造性と斬新さを保ちながら、人間の判断のための自動測定値に基づいて従来の手法を改善した新たな手法を見いだす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Teaching text-to-image models to be creative involves using style ambiguity loss, which requires a pretrained classifier. In this work, we explore a new form of the style ambiguity training objective, used to approximate creativity, that does not require training a classifier or even a labeled dataset. We then train a diffusion model to maximize style ambiguity to imbue the diffusion model with creativity and find our new methods improve upon the traditional method, based on automated metrics for human judgment, while still maintaining creativity and novelty.
- Abstract(参考訳): 創造的なテキスト・ツー・イメージモデルを教えるには、事前訓練された分類器を必要とするスタイルの曖昧さの損失を使用する必要がある。
本研究では,分類器やラベル付きデータセットを訓練する必要のない,創造性を近似するために使用される,スタイルあいまいさ学習の新たな形態について検討する。
次に、拡散モデルを最大化するために拡散モデルをトレーニングし、創造性を備えた拡散モデルを構築し、創造性と新規性を維持しつつ、人間の判断のための自動メトリクスに基づいて従来の方法を改善する方法を見つけます。
関連論文リスト
- Leveraging Hierarchical Taxonomies in Prompt-based Continual Learning [41.13568563835089]
深層学習モデルの学習において,情報の整理・接続という人間の習慣を適用することが効果的な戦略として有効であることがわかった。
本稿では,モデルがより挑戦的な知識領域に集中するように促す新たな正規化損失関数を提案する。
論文 参考訳(メタデータ) (2024-10-06T01:30:40Z) - Using Style Ambiguity Loss to Improve Aesthetics of Diffusion Models [0.0]
創造的なテキスト・ツー・イメージモデルを教えるには、スタイルの曖昧さの損失を使用する必要がある。
本研究では,拡散モデルを用いて,創造性を近似するスタイルあいまいさ学習の目的について検討する。
スタイルのあいまいさの損失で訓練されたモデルは,ベースライン拡散モデルやGANよりも優れた画像を生成することができる。
論文 参考訳(メタデータ) (2024-10-02T22:05:30Z) - Automatic Generation of Fashion Images using Prompting in Generative Machine Learning Models [1.8817715864806608]
本研究では、2つの異なる大言語モデルと、ファッション画像作成のための安定拡散モデルを用いて、カスタマイズされたファッション記述を生成する手法について検討する。
AI駆動のファッションクリエイティビティにおける適応性を強調して、ゼロショットや少数ショット学習といったテクニックの促進に重点を置いています。
評価は、CLIPscoreのような定量的メトリクスと質的な人間の判断を組み合わせることで、創造性、コヒーレンス、さまざまなスタイルの美的魅力を強調します。
論文 参考訳(メタデータ) (2024-07-20T17:37:51Z) - An Improved Method for Personalizing Diffusion Models [23.20529652769131]
拡散モデルは印象的な画像生成能力を示している。
テキストインバージョンやドリームブートのようなパーソナライズされたアプローチは、特定の画像を用いたモデルのパーソナライゼーションを強化する。
提案手法は,新たな情報統合におけるモデルの本来の知識を維持することを目的としている。
論文 参考訳(メタデータ) (2024-07-07T09:52:04Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Few-shot Calligraphy Style Learning [0.0]
プレシディフスション(Presidifussion)は、周大統領の独自の書風を習得し、複製する新しいアプローチである。
フォント画像条件付けとストローク情報条件付けの革新的手法を導入し,漢字の複雑な構造要素を抽出する。
本研究は,書道芸術のデジタル保存におけるブレークスルーを示すだけでなく,文化遺産デジタル化分野におけるデータ効率生成モデリングの新たな標準となる。
論文 参考訳(メタデータ) (2024-04-26T07:17:09Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。