論文の概要: 2K-Characters-10K-Stories: A Quality-Gated Stylized Narrative Dataset with Disentangled Control and Sequence Consistency
- arxiv url: http://arxiv.org/abs/2512.05557v1
- Date: Fri, 05 Dec 2025 09:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.979478
- Title: 2K-Characters-10K-Stories: A Quality-Gated Stylized Narrative Dataset with Disentangled Control and Sequence Consistency
- Title(参考訳): 2K-Characters-10K-Stories: Unentangled Control and Sequence Consistency を用いた高品質スティル化ナラティブデータセット
- Authors: Xingxi Yin, Yicheng Li, Gong Yan, Chenglin Li, Jian Zhao, Cong Huang, Yue Deng, Yin Zhang,
- Abstract要約: 我々は,textbf2K-Characters-10K-Storiesを紹介した。
これは、大規模なユニークなIDと明示的な分離された制御信号とをペアにして、シーケンシャルなアイデンティティ整合性を実現する最初のデータセットである。
- 参考スコア(独自算出の注目度): 43.81205247266926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential identity consistency under precise transient attribute control remains a long-standing challenge in controllable visual storytelling. Existing datasets lack sufficient fidelity and fail to disentangle stable identities from transient attributes, limiting structured control over pose, expression, and scene composition and thus constraining reliable sequential synthesis. To address this gap, we introduce \textbf{2K-Characters-10K-Stories}, a multi-modal stylized narrative dataset of \textbf{2{,}000} uniquely stylized characters appearing across \textbf{10{,}000} illustration stories. It is the first dataset that pairs large-scale unique identities with explicit, decoupled control signals for sequential identity consistency. We introduce a \textbf{Human-in-the-Loop pipeline (HiL)} that leverages expert-verified character templates and LLM-guided narrative planning to generate highly-aligned structured data. A \textbf{decoupled control} scheme separates persistent identity from transient attributes -- pose and expression -- while a \textbf{Quality-Gated loop} integrating MMLM evaluation, Auto-Prompt Tuning, and Local Image Editing enforces pixel-level consistency. Extensive experiments demonstrate that models fine-tuned on our dataset achieves performance comparable to closed-source models in generating visual narratives.
- Abstract(参考訳): 正確な過渡的属性制御の下での逐次的アイデンティティの整合性は、制御可能なビジュアルストーリーテリングにおける長年の課題である。
既存のデータセットには十分な忠実さがなく、一時的な属性から安定したアイデンティティを分離できないため、ポーズ、表現、シーン構成に対する構造化された制御が制限され、信頼できるシーケンシャルな合成が制限される。
このギャップに対処するために,本研究では, イラストアストーリーに現れる特徴的スタイリング文字のマルチモーダルなスタイリング・ナラティブ・データセットである \textbf{2K-Characters-10K-Stories} を紹介する。
これは、大規模なユニークなIDと明示的な分離された制御信号とをペアにして、シーケンシャルなアイデンティティ整合性を実現する最初のデータセットである。
専門家が検証した文字テンプレートとLLM誘導の物語プランニングを利用して高整合な構造化データを生成する,‘textbf{Human-in-the-Loop Pipeline(HiL)’を導入する。
MMLM評価、Auto-Prompt Tuning、Local Image Editingを統合した \textbf{Quality-Gated loop} はピクセルレベルの一貫性を強制する。
大規模な実験により、我々のデータセットで微調整されたモデルは、ビジュアルな物語を生成する際に、クローズドソースモデルに匹敵するパフォーマンスを達成することが示された。
関連論文リスト
- Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models [50.87835332136393]
CoT(Chain-of-Thought)は統一モデルの生成能力を大幅に改善した。
本稿では,統一モデルの推論に視覚的コンテキスト整合性を導入する。
教師付きファインタニングを用いて、視覚的チェックの計画方法を教え、自己回帰と自己精製を行い、フロー-GRPOを使用して視覚的一貫性をさらに向上する。
論文 参考訳(メタデータ) (2025-12-22T18:59:03Z) - SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning [53.638998508418545]
本稿では,画像の協調とキャプション'(セグキャプション)を新たに導入する。
SegCaptioningは、オブジェクトを囲むバウンディングボックスのような直接的なプロンプトを、(カプセル、マスク)ペアで表されるさまざまな意味解釈に変換することを目的としている。
このタスクは、ユーザの意図を最小限のプロンプトから正確に把握し、同時に複数の意味的に整列したキャプションワードとマスクを予測するなど、大きな課題を生じさせる。
論文 参考訳(メタデータ) (2025-12-01T18:33:04Z) - TripleFDS: Triple Feature Disentanglement and Synthesis for Scene Text Editing [56.73004765030206]
STE(Scene Text Editing)は、視覚的一貫性を維持しながら、画像中のテキストを自然に修正することを目的としている。
本稿では,モジュラー属性をアンタングル化したSTEのための新しいフレームワークであるTripleFDSを提案する。
TripleFDSは、メインストリームのSTEベンチマークで最先端の画像忠実度(SSIM 44.54)とテキスト精度(ACC 93.58%)を達成する。
論文 参考訳(メタデータ) (2025-11-17T14:15:03Z) - Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Attribute Guidance With Inherent Pseudo-label For Occluded Person Re-identification [16.586742421279137]
Attribute-Guide ReID(AG-ReID)は、追加のデータやアノテーションなしで詳細なセマンティック属性を抽出する新しいフレームワークである。
まず、微妙な視覚的特徴を捉えた属性の擬似ラベルを生成し、次に二重誘導機構を導入する。
大規模な実験により、AG-ReIDは複数の広く使用されているRe-IDデータセットで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2025-08-07T03:13:24Z) - Detail++: Training-Free Detail Enhancer for Text-to-Image Diffusion Models [6.140839748607505]
Detail++はプログレッシブ・ディテール・インジェクション(PDI)生成のためのトレーニング不要のフレームワークである。
複雑なプロンプトを単純化されたサブプロンプト列に分解し、生成プロセスを段階的に導く。
T2I-CompBenchと新たに構築されたスタイルコンポジションベンチマークの実験は、Detail++が既存のメソッドよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2025-07-23T18:20:46Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [8.314556078632412]
ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
論文 参考訳(メタデータ) (2024-12-02T08:24:11Z) - Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。