Fugu-MT 論文翻訳(概要): Personalized Image Generation from an Author Writing Style

論文の概要: Personalized Image Generation from an Author Writing Style

arxiv url: http://arxiv.org/abs/2507.03313v1
Date: Fri, 04 Jul 2025 05:53:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.672874
Title: Personalized Image Generation from an Author Writing Style
Title（参考訳）: 著者の書き方によるパーソナライズされた画像生成
Authors: Sagar Gandhi, Vishal Gandhi,
Abstract要約: ニュアンスでテキストで定義された著作スタイルを説得力のある視覚表現に変換することは、ジェネレーティブAIにおける新たな課題である。本稿では,Large Language Model (LLM) への入力として Author Writing Sheets (AWS) を利用するパイプラインを提案する。我々はRedditのデータから49の著者スタイルを用いてアプローチを評価し、人間の評価者が生成した画像のスタイリスティックなマッチングと視覚的特徴を評価した。
参考スコア（独自算出の注目度）: 0.29998889086656577
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Translating nuanced, textually-defined authorial writing styles into compelling visual representations presents a novel challenge in generative AI. This paper introduces a pipeline that leverages Author Writing Sheets (AWS) - structured summaries of an author's literary characteristics - as input to a Large Language Model (LLM, Claude 3.7 Sonnet). The LLM interprets the AWS to generate three distinct, descriptive text-to-image prompts, which are then rendered by a diffusion model (Stable Diffusion 3.5 Medium). We evaluated our approach using 49 author styles from Reddit data, with human evaluators assessing the stylistic match and visual distinctiveness of the generated images. Results indicate a good perceived alignment between the generated visuals and the textual authorial profiles (mean style match: $4.08/5$), with images rated as moderately distinctive. Qualitative analysis further highlighted the pipeline's ability to capture mood and atmosphere, while also identifying challenges in representing highly abstract narrative elements. This work contributes a novel end-to-end methodology for visual authorial style personalization and provides an initial empirical validation, opening avenues for applications in creative assistance and cross-modal understanding.
Abstract（参考訳）: ニュアンスでテキストで定義された著作スタイルを説得力のある視覚表現に変換することは、ジェネレーティブAIにおける新たな課題である。本稿では,著者の著作的特徴を構造化した要約であるライティングシート (AWS) を大規模言語モデル (LLM, Claude 3.7 Sonnet) に入力するパイプラインを提案する。 LLMはAWSを解釈して、3つの独立した説明的テキスト-画像プロンプトを生成し、拡散モデルによってレンダリングする(Stable Diffusion 3.5 Medium)。我々はRedditのデータから49の著者スタイルを用いてアプローチを評価し、人間の評価者が生成した画像のスタイリスティックなマッチングと視覚的特徴を評価した。結果は、生成した視覚とテキストの著者プロファイル(平均的なスタイルマッチ:4.08/5$)の良好な一致を示し、画像は適度に区別される。質的な分析は、パイプラインの雰囲気と雰囲気を捉える能力をさらに強調し、高度に抽象的な物語要素を表現する上での課題を明らかにした。この研究は、視覚的権威的スタイルのパーソナライズのための新しいエンドツーエンドの方法論に貢献し、最初の経験的検証、創造的援助と横断的理解の応用への道を開く。

関連論文リスト

DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文参考訳（メタデータ） (2025-03-03T15:22:57Z)
Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。 MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文参考訳（メタデータ） (2024-10-24T15:15:01Z)
VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models [53.59400446543756]
アーティスティック・タイポグラフィー(Arttic typography)は、入力文字の意味を想像可能で読みやすい方法で視覚化する技法である。そこで我々は,VitaGlyphと呼ばれる2枝のトレーニング不要な手法を導入し,幾何学的変化を制御可能な,柔軟な芸術的タイポグラフィーを実現する。
論文参考訳（メタデータ） (2024-10-02T16:48:47Z)
Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文参考訳（メタデータ） (2024-07-18T10:01:09Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
ALADIN-NST: Self-supervised disentangled representation learning of artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文参考訳（メタデータ） (2023-04-12T10:33:18Z)
WordStylist: Styled Verbatim Handwritten Text Generation with Latent Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文参考訳（メタデータ） (2023-03-29T10:19:26Z)
DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion [10.75789076591325]
1つ以上の文字フォントをスタイリングすることで,芸術的タイポグラフィーを自動的に生成する新しい手法を提案する。提案手法では,大規模言語モデルを用いてテキストや視覚画像をブリッジしてスタイリングし,教師なし生成モデルを構築する。
論文参考訳（メタデータ） (2023-03-16T19:12:52Z)
Style-Aware Contrastive Learning for Multi-Style Image Captioning [36.1319565907582]
我々は、スタイルに関連のある潜在的な視覚コンテンツをマイニングするために、コントラスト学習を備えたスタイル認識型ビジュアルエンコーダを提案する。また、画像、スタイル、キャプションが一致したかどうかを識別するために、スタイル対応のコントラスト目標を提案する。実験により,本手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2023-01-26T19:21:39Z)
Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文参考訳（メタデータ） (2022-11-23T14:40:51Z)
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文参考訳（メタデータ） (2021-11-24T19:00:05Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。