論文の概要: BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion
- arxiv url: http://arxiv.org/abs/2408.04785v1
- Date: Thu, 8 Aug 2024 23:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:58:33.049608
- Title: BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion
- Title(参考訳): BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion
- Authors: James Baker,
- Abstract要約: テキストのインバージョンは、UNetの代替手段を使って過小評価されていることに留意する。
また、UNetの明示的な使用を必要としない戦略を用いて、テキストの反転を最適化する。
ボーナストークンの使用により、ソース画像への付着性が向上し、視覚変換器の使用により、プロンプトへの付着性が向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual Inversion remains a popular method for personalizing diffusion models, in order to teach models new subjects and styles. We note that textual inversion has been underexplored using alternatives to the UNet, and experiment with textual inversion with a vision transformer. We also seek to optimize textual inversion using a strategy that does not require explicit use of the UNet and its idiosyncratic layers, so we add bonus tokens and enforce orthogonality. We find the use of the bonus token improves adherence to the source images and the use of the vision transformer improves adherence to the prompt. Code is available at https://github.com/jamesBaker361/tex_inv_plus.
- Abstract(参考訳): テキスト・インバージョンは、新しい主題やスタイルをモデルに教えるために、拡散モデルをパーソナライズするための一般的な方法である。
テキスト・インバージョンは、UNetの代替手段を用いて過小評価され、また視覚変換器を用いたテキスト・インバージョンの実験も行われている。
また、UNetとその慣用的レイヤを明示的に使用する必要のない戦略を用いてテキストのインバージョンを最適化し、ボーナストークンを追加し、直交性を強制する。
ボーナストークンの使用により、ソース画像への付着性が向上し、視覚変換器の使用により、プロンプトへの付着性が向上することがわかった。
コードはhttps://github.com/jamesBaker361/tex_inv_plusで公開されている。
関連論文リスト
- Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - StylePrompter: All Styles Need Is Attention [21.760753546313403]
StyleGANは、GAN(Generative Adversarial Networks)の対応する遅延コードに画像を変換することを目的としている。
本稿では,トークンレベルで$mathcalW+$遅延コードを予測するために,階層型視覚トランスフォーマーのバックボーンを革新的に導入する。
そして、StylePrompterがより不整合な$mathcalW+$にあることを証明し、SMARTの可制御性を示す。
論文 参考訳(メタデータ) (2023-07-30T07:23:44Z) - Intra- & Extra-Source Exemplar-Based Style Synthesis for Improved Domain
Generalization [21.591831983223997]
セマンティックセグメンテーションにおけるドメインの一般化を改善するために,先進的なスタイル合成パイプラインを提案する。
提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。
データシフトの種類によって、ドライブシーンセマンティックセマンティックセグメンテーションの最大12.4%のmIoU改善を実現しています。
論文 参考訳(メタデータ) (2023-07-02T19:56:43Z) - Gradient-Free Textual Inversion [34.474779413929426]
プロセス推論モデル推論モデルにのみアクセスすることで、テキストインバージョンを最適化できるかどうかを疑問視するのは自然なことです。
反復的進化戦略において,連続的なテキストの反転を最適化するための進化戦略を導入する。
提案手法を応用したテキスト・画像モデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2023-04-12T12:46:27Z) - P+: Extended Textual Conditioning in Text-to-Image Generation [50.823884280133626]
テキスト・ツー・イメージ・モデルでは$P+$と呼ばれる拡張テキスト・コンディショニング・スペースを導入します。
拡張空間は画像合成に対してより密接な制御と制御を提供することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
論文 参考訳(メタデータ) (2023-03-16T17:38:15Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。