論文の概要: CharCom: Composable Identity Control for Multi-Character Story Illustration
- arxiv url: http://arxiv.org/abs/2510.10135v1
- Date: Sat, 11 Oct 2025 09:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.800844
- Title: CharCom: Composable Identity Control for Multi-Character Story Illustration
- Title(参考訳): CharCom: マルチキャラクタストーリーイラストレーションのための構成可能なアイデンティティ制御
- Authors: Zhongsheng Wang, Ming Lin, Zhedong Lin, Yaser Shakib, Qian Liu, Jiamou Liu,
- Abstract要約: CharComは、構成可能なLoRAアダプタを通じて、キャラクタ一貫性のあるストーリーイラストアを実現するフレームワークである。
マルチシーンの物語の実験では、CharComはキャラクタの忠実度、セマンティックアライメント、時間的コヒーレンスを著しく向上させる。
混み合ったシーンでは堅牢であり、最小限のオーバーヘッドでスケーラブルなマルチキャラクタ生成を可能にし、ストーリーイラストやアニメーションのような現実世界のアプリケーションに適している。
- 参考スコア(独自算出の注目度): 13.582635774872463
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring character identity consistency across varying prompts remains a fundamental limitation in diffusion-based text-to-image generation. We propose CharCom, a modular and parameter-efficient framework that achieves character-consistent story illustration through composable LoRA adapters, enabling efficient per-character customization without retraining the base model. Built on a frozen diffusion backbone, CharCom dynamically composes adapters at inference using prompt-aware control. Experiments on multi-scene narratives demonstrate that CharCom significantly enhances character fidelity, semantic alignment, and temporal coherence. It remains robust in crowded scenes and enables scalable multi-character generation with minimal overhead, making it well-suited for real-world applications such as story illustration and animation.
- Abstract(参考訳): 様々なプロンプトにまたがる文字識別の整合性を保証することは、拡散ベースのテキスト・画像生成の基本的な制限である。
提案するCharComは,構成可能なLoRAアダプタを用いて,文字一貫性のあるストーリーインジケータを実現するモジュール型かつパラメータ効率のよいフレームワークである。
凍結拡散バックボーン上に構築されたCharComは、プロンプト認識制御を使用して推論時にアダプタを動的に構成する。
マルチシーンの物語の実験では、CharComはキャラクタの忠実度、セマンティックアライメント、時間的コヒーレンスを著しく向上させる。
混み合ったシーンでは堅牢であり、最小限のオーバーヘッドでスケーラブルなマルチキャラクタ生成を可能にし、ストーリーイラストやアニメーションのような現実世界のアプリケーションに適している。
関連論文リスト
- TaleDiffusion: Multi-Character Story Generation with Dialogue Rendering [13.076013597876623]
TaleDiffusionは、反復的なプロセスで複数文字のストーリーを生成するための新しいフレームワークである。
ストーリーが与えられたら、プレトレーニングされたLLMを使用して、フレームごとの記述、文字の詳細、対話を生成します。
次に、フレーム間の文字の整合性を確保するためのアイデンティティ一貫性を持つ自己認識機構と、正確なオブジェクト配置のための領域認識相互アテンションを適用した。
論文 参考訳(メタデータ) (2025-09-04T11:37:06Z) - RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.06936588273868]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - CharaConsist: Fine-Grained Consistent Character Generation [93.08900337098302]
CharaConsistは、テキスト・ツー・イメージのDiTモデルに適した、最初の一貫した生成方法である。
CharaConsistは、フォアグラウンドとバックグラウンドの両方できめ細かい一貫性を実現する。
きめ細かい一貫性を維持する能力と、最新のベースモデルの容量を大きくすることで、高品質なビジュアル出力を生成することができる。
論文 参考訳(メタデータ) (2025-07-15T17:58:08Z) - InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework [24.29397138274732]
InstantCharacterは、基礎拡散変換器上に構築された文字カスタマイズのためのスケーラブルなフレームワークである。
多様なキャラクターの外観、ポーズ、スタイルにまたがるオープンドメインのパーソナライゼーションを実現し、高忠実度な結果を維持する。
論文 参考訳(メタデータ) (2025-04-16T18:01:59Z) - StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization [36.14275850149665]
本稿では,様々なストーリー関連知識を包括的に表現した新しい知識グラフ,すなわちキャラクタグラフ(textbfCG)を提案する。
次に、リッチテキストセマンティクスと一貫したストーリー視覚化が可能な、キャラクタグラフ(textbfC-CG)によるカスタマイズを実現するイメージジェネレータであるStoryWeaverを紹介する。
論文 参考訳(メタデータ) (2024-12-10T10:16:50Z) - CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds [74.02480671181685]
ロールプレイングは大規模言語モデル(LLM)の重要な機能である
現在の評価手法は, 実演に不可欠なニュアンス特性や動作を適切に把握するに足りていない。
本研究では,キャラクタボックスを提案する。キャラクタボックスは,キャラクタの微粒な挙動を再現するシミュレーションサンドボックスである。
論文 参考訳(メタデータ) (2024-12-07T12:09:35Z) - Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling [77.08568533331206]
文字画像アニメーションのための新しい多条件ガイドフレームワークを提案する。
我々は、モデルが暗黙的に疎結合する能力を高めるために、よく設計された入力モジュールをいくつか採用する。
本手法は,特に複雑な背景と複数の文字のシナリオにおいて,高品質なキャラクタアニメーションの生成に優れる。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。