論文の概要: Retrieval Augmented Comic Image Generation
- arxiv url: http://arxiv.org/abs/2506.12517v1
- Date: Sat, 14 Jun 2025 14:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.404146
- Title: Retrieval Augmented Comic Image Generation
- Title(参考訳): 検索機能強化コミック画像生成
- Authors: Yunhao Shui, Xuekuan Wang, Feng Qiu, Yuqiu Huang, Jinzhu Li, Haoyu Zheng, Jinru Han, Zhuo Zeng, Pengpeng Zhang, Jiarui Han, Keqiang Sun,
- Abstract要約: 本稿では,一貫したキャラクタと表現的ジェスチャーを持つ漫画風画像列を生成する新しいシステムであるRaCigを提案する。
RaCigは2つの重要な課題に対処している。
- 参考スコア(独自算出の注目度): 2.8594383542895385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RaCig, a novel system for generating comic-style image sequences with consistent characters and expressive gestures. RaCig addresses two key challenges: (1) maintaining character identity and costume consistency across frames, and (2) producing diverse and vivid character gestures. Our approach integrates a retrieval-based character assignment module, which aligns characters in textual prompts with reference images, and a regional character injection mechanism that embeds character features into specified image regions. Experimental results demonstrate that RaCig effectively generates engaging comic narratives with coherent characters and dynamic interactions. The source code will be publicly available to support further research in this area.
- Abstract(参考訳): 本稿では,一貫したキャラクタと表現的ジェスチャーを持つ漫画風画像列を生成する新しいシステムであるRaCigを提案する。
RaCigは、(1)フレーム間のキャラクターのアイデンティティと衣装の整合性を維持すること、(2)多様で鮮やかなキャラクタージェスチャを生成すること、の2つの課題に対処する。
提案手法では,テキストプロンプト中の文字を参照画像と整列する検索ベースの文字代入モジュールと,特定の画像領域に文字特徴を埋め込む局所的文字注入機構を統合する。
実験結果から,RaCigはコヒーレントなキャラクターと動的相互作用を持つ漫画物語を効果的に生成することが示された。
ソースコードは、この分野のさらなる研究をサポートするために公開されます。
関連論文リスト
- Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。
コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。
提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文 参考訳(メタデータ) (2025-05-30T17:39:14Z) - Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts [20.281732318265483]
本稿では,アクションレベルのプロンプトを視覚的,聴覚的に基礎付けられた物語対話に変換するモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
我々は、各発話を表現的かつ文字一貫性のある音声として表現し、完全な音声による映像物語を生み出す。
論文 参考訳(メタデータ) (2025-05-22T15:54:42Z) - From Panels to Prose: Generating Literary Narratives from Comics [55.544015596503726]
漫画からテキストベースの文芸物語を自動生成するシステムを開発した。
提案手法は,オリジナルの物語を伝えるだけでなく,キャラクターの深さや複雑さを捉えた,挑発的で没入的な散文を作成することを目的としている。
論文 参考訳(メタデータ) (2025-03-30T07:18:10Z) - Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization [34.28477193804092]
character-Adapterは、参照文字の詳細を保持するイメージを生成するために設計されたプラグイン・アンド・プレイのフレームワークである。
character-Adapterは、参照文字のきめ細かい地域的特徴を保証するために、プロンプト誘導セグメンテーションを使用する。
論文 参考訳(メタデータ) (2024-06-24T11:16:37Z) - Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion [35.25298023240529]
本稿では,未注釈の漫画画像のみに基づいて文字を識別し,話者名を予測するためのゼロショット手法を提案する。
本手法ではトレーニングデータやアノテーションは必要とせず,任意のコミックシリーズで使用することができる。
論文 参考訳(メタデータ) (2024-04-22T08:59:35Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - Identity-Aware Semi-Supervised Learning for Comic Character
Re-Identification [2.4624325014867763]
本稿では,メタラーニングと新しい「アイデンティティ・アウェア」自己監督手法を組み合わせた頑健なフレームワークを提案する。
我々のアプローチは、統合されたネットワークアーキテクチャにおいて、顔と身体の両方の機能を処理することである。
シリーズ内評価とシリーズ間評価の指標を用いて,本手法を広範囲に検証することにより,漫画のキャラクターを一貫した同定において,その有効性を示す。
論文 参考訳(メタデータ) (2023-08-17T16:48:41Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。