論文の概要: Emotion-Aware Image Generation from Korean Diary Text via LLM-based Prompt Translation and LoRA Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.05816v2
- Date: Fri, 05 Jun 2026 23:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.979815
- Title: Emotion-Aware Image Generation from Korean Diary Text via LLM-based Prompt Translation and LoRA Fine-Tuning
- Title(参考訳): LLM-based Prompt Translation と LoRA Fine-Tuning による韓国の日記文からの感情認識画像生成
- Authors: Jihun Cho, Soo-Yeon Jeong, Sun-Young Ihm,
- Abstract要約: 本稿では,韓国の短い日記記事から児童の手描きスタイルの画像を生成する感情認識型テキスト・画像パイプラインを提案する。
提案したパイプラインでは、短い日記からの暗黙の感情を認識するためにQwen3-8Bと、子供の描画画像にLoRAを微調整した安定拡散3.5Mediumを採用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: T2I models cannot effectively capture sentiment from various types of text, including diaries, as they primarily focus on visual object-related patterns rather than contextual emotional understanding. This paper proposes an emotion-aware text-to-image pipeline that generates children's hand drawing style images from short Korean diary entries. The proposed pipeline employs Qwen3-8B for recognising implicit sentiment from short diaries, and Stable Diffusion 3.5 Medium fine-tuned with LoRA on children's drawing images with emotion-based trigger words for image generation. Additionally, this paper presents experiments examining the effect of emotion trigger words on generated images and discusses the limitations of CLIP Score as an evaluation metric for emotion-aware image generation.
- Abstract(参考訳): T2Iモデルは、文脈的感情的理解よりも視覚的オブジェクト関連パターンに主眼を置いているため、日記を含む様々なタイプのテキストから感情を効果的に捉えることはできない。
本稿では,韓国の短い日記記事から児童の手描きスタイルの画像を生成する感情認識型テキスト・画像パイプラインを提案する。
提案パイプラインでは,短い日記から暗黙の感情を認識するQwen3-8Bと,感情に基づくトリガーワードを用いた子どもの描画画像にLoRAを微調整した安定拡散3.5Mediumを採用している。
さらに,情動トリガー語が生成画像に与える影響を検証し,感情認識画像生成の評価指標としてCLIPスコアの限界について考察する。
関連論文リスト
- Affective Image Editing: Shaping Emotional Factors via Text Descriptions [46.13506671212571]
AIEdiT for Affective Image Editing using Text descriptions。
我々は、連続的な感情スペクトルを構築し、ニュアンスな感情的要求を抽出する。
AIEdiTは、ユーザの感情的な要求を効果的に反映して、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-24T13:46:57Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmotiCrafter: Text-to-Emotional-Image Generation based on Valence-Arousal Model [23.26111054485357]
連続感情画像コンテンツ生成(C-EICG)の新たな課題について紹介する。
本稿では,テキストプロンプトとValence-Arousal値に基づいて画像を生成する感情画像生成モデルであるEmotiCrafterを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:41:37Z) - Contextual Emotion Estimation from Image Captions [0.6749750044497732]
大規模言語モデルが文脈的感情推定タスクをサポートできるかを,まずイメージをキャプションし,LLMを用いて推論する。
EMOTICデータセットから331画像のサブセットのキャプションと感情アノテーションを生成する。
GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供する。
論文 参考訳(メタデータ) (2023-09-22T18:44:34Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - Emotion Carrier Recognition from Personal Narratives [74.24768079275222]
パーソナル・ナラティブズ(Personal Narratives、PN)は、自分の経験から事実、出来事、思考を回想するものである。
感情キャリア認識(ECR)のための新しい課題を提案する。
論文 参考訳(メタデータ) (2020-08-17T17:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。