論文の概要: Controllable Textual Inversion for Personalized Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2304.05265v2
- Date: Wed, 12 Apr 2023 07:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 10:53:28.326993
- Title: Controllable Textual Inversion for Personalized Text-to-Image Generation
- Title(参考訳): 個人化テキスト画像生成のための制御可能なテキストインバージョン
- Authors: Jianan Yang, Haobo Wang, Ruixuan Xiao, Sai Wu, Gang Chen, Junbo Zhao
- Abstract要約: テキスト・インバージョン(TI)は、ユーザ定義、未確認、ロングテールの概念トークンを含むプロンプトの生成をパーソナライズする効果的な手法として提案されている。
本研究では、上記の問題を全て解決し、堅牢で、データ効率が高く、使いやすいフレームワークを提供するために、制御可能なテキスト・インバージョン(COTI)と呼ばれる高機能なTIを提案する。
- 参考スコア(独自算出の注目度): 15.336403668175777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent large-scale generative modeling has attained unprecedented
performance especially in producing high-fidelity images driven by text
prompts. Text inversion (TI), alongside the text-to-image model backbones, is
proposed as an effective technique in personalizing the generation when the
prompts contain user-defined, unseen or long-tail concept tokens. Despite that,
we find and show that the deployment of TI remains full of "dark-magics" -- to
name a few, the harsh requirement of additional datasets, arduous human efforts
in the loop and lack of robustness. In this work, we propose a much-enhanced
version of TI, dubbed Controllable Textual Inversion (COTI), in resolving all
the aforementioned problems and in turn delivering a robust, data-efficient and
easy-to-use framework. The core to COTI is a theoretically-guided loss
objective instantiated with a comprehensive and novel weighted scoring
mechanism, encapsulated by an active-learning paradigm. The extensive results
show that COTI significantly outperforms the prior TI-related approaches with a
26.05 decrease in the FID score and a 23.00% boost in the R-precision.
- Abstract(参考訳): 最近の大規模生成モデリングは、特にテキストプロンプトによって駆動される高忠実度画像の生成において、前例のない性能を達成した。
text inversion(ti)は、text-to-imageモデルバックボーンと共に、プロンプトがユーザ定義、未認識、あるいはロングテールの概念トークンを含む場合に、生成をパーソナライズするための効果的な技術として提案されている。
それにもかかわらず、TIのデプロイメントは依然として"暗黒の魔術"に満ちており、例えば、追加データセットの厳しい要求、ループにおける厳しい人的努力、堅牢性の欠如などがあります。
本研究では,制御可能なテキスト・インバージョン(COTI)と呼ばれるTIの高機能バージョンを提案し,上記の問題をすべて解決し,堅牢でデータ効率の良い,使いやすいフレームワークを提供する。
COTIの中核は、アクティブラーニングパラダイムによってカプセル化された、包括的で斬新なスコアリング機構でインスタンス化された理論的に誘導された損失目標である。
広範な結果は、cotiが以前のti関連アプローチを大きく上回り、fidスコアが26.05減少し、r-precisionが23.00%上昇したことを示している。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning [0.0]
そこで本研究では,それを利用した微調整フレームワークを提案する。
PEFT(Efficient Fine-Tuning)技術。
提案する微調整フレームワークは,最大で0.4%のパラメータをチューニングすることで,コードテキスト検索性能を向上させる可能性を実証した。
論文 参考訳(メタデータ) (2024-05-07T08:50:25Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing
Learning Efficiency [5.006064616335817]
本稿では,従来のモデルであるDONUTの限界に対処する,疎度なOCRフリービジュアル文書理解(VDU)モデルであるDONUT-holeを紹介する。
DONUTホールを創出する当社のパラダイムは,性能を保ちながらモデル密度を54%削減する。
論文 参考訳(メタデータ) (2023-11-09T22:49:05Z) - CoT-BERT: Enhancing Unsupervised Sentence Representation through Chain-of-Thought [3.0566617373924325]
本稿では,教師付き推論の進歩的思考を活用する革新的な手法であるCoT-BERTを提案する。
我々は、高度なコントラスト学習損失関数を開発し、新しいテンプレート認知戦略を提案する。
論文 参考訳(メタデータ) (2023-09-20T08:42:06Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - Hierarchical and Efficient Learning for Person Re-Identification [19.172946887940874]
階層的大域的, 部分的, 回復的特徴を複数の損失結合の監督の下で学習する, 階層的, 効率的なネットワーク(HENet)を提案する。
また,RPE (Random Polygon Erasing) と呼ばれる新しいデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-18T15:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。