Fugu-MT 論文翻訳(概要): Few-shot multi-token DreamBooth with LoRa for style-consistent character generation

論文の概要: Few-shot multi-token DreamBooth with LoRa for style-consistent character generation

arxiv url: http://arxiv.org/abs/2510.09475v1
Date: Fri, 10 Oct 2025 15:28:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 00:38:49.321018
Title: Few-shot multi-token DreamBooth with LoRa for style-consistent character generation
Title（参考訳）: スタイル一貫性キャラクタ生成のためのLoRaを用いたFew-shot Multi-token DreamBooth
Authors: Ruben Pascual, Mikel Sesma-Sara, Aranzazu Jurio, Daniel Paternain, Mikel Galar,
Abstract要約: オーディオヴィジュアル産業は、AI開発を統合して新しい芸術様式を刺激し、大きな変革を遂げている。本稿では, 芸術的スタイルを保ち, 人間のデザインした小文字集合の視覚的特徴を共有できる, 事実上無限の新規文字を生成するという課題に対処する。クラスタリングを用いて個々の文字とその集合スタイルに個別のトークンを割り当てるマルチトークン戦略と,LoRAに基づくパラメータ効率の微調整を提案する。
参考スコア（独自算出の注目度）: 3.4405653742416145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The audiovisual industry is undergoing a profound transformation as it is integrating AI developments not only to automate routine tasks but also to inspire new forms of art. This paper addresses the problem of producing a virtually unlimited number of novel characters that preserve the artistic style and shared visual traits of a small set of human-designed reference characters, thus broadening creative possibilities in animation, gaming, and related domains. Our solution builds upon DreamBooth, a well-established fine-tuning technique for text-to-image diffusion models, and adapts it to tackle two core challenges: capturing intricate character details beyond textual prompts and the few-shot nature of the training data. To achieve this, we propose a multi-token strategy, using clustering to assign separate tokens to individual characters and their collective style, combined with LoRA-based parameter-efficient fine-tuning. By removing the class-specific regularization set and introducing random tokens and embeddings during generation, our approach allows for unlimited character creation while preserving the learned style. We evaluate our method on five small specialized datasets, comparing it to relevant baselines using both quantitative metrics and a human evaluation study. Our results demonstrate that our approach produces high-quality, diverse characters while preserving the distinctive aesthetic features of the reference characters, with human evaluation further reinforcing its effectiveness and highlighting the potential of our method.
Abstract（参考訳）: オーディオ視覚産業は、日常的なタスクを自動化するだけでなく、新しい形の芸術を刺激するためにAI開発を統合することで、大きな変革を遂げている。そこで本論文では,アニメーションやゲーム,関連ドメインにおいて,芸術的スタイルを保ちながら視覚的特徴を共有できる新たな文字を無限に生成する問題について論じる。私たちのソリューションは、テキストから画像への拡散モデルのためのよく確立された微調整技術であるDreamBoothを基盤として、テキストプロンプトを超えた複雑な文字の詳細と、トレーニングデータの数ショットの性質の2つの課題に対処します。これを実現するために、クラスタリングを用いて個々の文字とその集合スタイルに個別のトークンを割り当てるマルチトークン戦略と、LoRAに基づくパラメータ効率の微調整を提案する。クラス固有の正規化セットを削除し、生成中にランダムトークンや埋め込みを導入することで、学習スタイルを保ちながら文字を無制限に作成できる。提案手法を5つの専門データセット上で評価し,定量的な測定値と人的評価値の両方を用いて関連するベースラインと比較した。提案手法は,基準文字の特徴的美的特徴を保ちながら,高品質で多様なキャラクタを創出し,その効果をさらに強化し,本手法の可能性を強調した。

関連論文リスト

Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文参考訳（メタデータ） (2025-01-02T18:52:11Z)
ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models [3.7599363231894185]
単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れています。
論文参考訳（メタデータ） (2024-06-04T23:39:08Z)
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文参考訳（メタデータ） (2023-11-16T18:59:51Z)
The Creative Frontier of Generative AI: Managing the Novelty-Usefulness Tradeoff [0.4873362301533825]
生成人工知能(AI)システムにおける新規性と有用性の最適バランスについて検討する。どちらの側面も過度に強調すると、幻覚や暗記のような限界に繋がる。
論文参考訳（メタデータ） (2023-06-06T11:44:57Z)
Unsupervised Neural Stylistic Text Generation using Transfer learning and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文参考訳（メタデータ） (2022-10-07T00:09:22Z)
Multi-Modal Experience Inspired AI Creation [33.34566822058209]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文参考訳（メタデータ） (2022-09-02T11:50:41Z)
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文参考訳（メタデータ） (2021-11-24T19:00:05Z)
Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文参考訳（メタデータ） (2021-09-10T20:37:43Z)
Separating Content from Style Using Adversarial Learning for Recognizing Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文参考訳（メタデータ） (2020-01-13T12:41:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。