論文の概要: GenTune: Toward Traceable Prompts to Improve Controllability of Image Refinement in Environment Design
- arxiv url: http://arxiv.org/abs/2508.15227v1
- Date: Thu, 21 Aug 2025 04:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.179914
- Title: GenTune: Toward Traceable Prompts to Improve Controllability of Image Refinement in Environment Design
- Title(参考訳): GenTune: 環境設計におけるイメージリファインメントの制御性向上のためのトレース可能なプロンプト
- Authors: Wen-Fan Wang, Ting-Ying Lee, Chien-Ting Lu, Che-Wei Hsu, Nil Ponsa Campany, Yu Chen, Mike Y. Chen, Bing-Yu Chen,
- Abstract要約: GenTuneは、デザイナが生成した画像の任意の要素を選択し、それを対応するプロンプトラベルにトレースし、それらのラベルを修正して、正確で一貫した画像のリファインメントをガイドする。
20名のデザイナーによる要約研究で、GenTuneは、迅速な理解、精細化の質、効率、全体的な満足度を著しく改善した。
- 参考スコア(独自算出の注目度): 11.504430962819034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environment designers in the entertainment industry create imaginative 2D and 3D scenes for games, films, and television, requiring both fine-grained control of specific details and consistent global coherence. Designers have increasingly integrated generative AI into their workflows, often relying on large language models (LLMs) to expand user prompts for text-to-image generation, then iteratively refining those prompts and applying inpainting. However, our formative study with 10 designers surfaced two key challenges: (1) the lengthy LLM-generated prompts make it difficult to understand and isolate the keywords that must be revised for specific visual elements; and (2) while inpainting supports localized edits, it can struggle with global consistency and correctness. Based on these insights, we present GenTune, an approach that enhances human--AI collaboration by clarifying how AI-generated prompts map to image content. Our GenTune system lets designers select any element in a generated image, trace it back to the corresponding prompt labels, and revise those labels to guide precise yet globally consistent image refinement. In a summative study with 20 designers, GenTune significantly improved prompt--image comprehension, refinement quality, and efficiency, and overall satisfaction (all $p < .01$) compared to current practice. A follow-up field study with two studios further demonstrated its effectiveness in real-world settings.
- Abstract(参考訳): エンターテイメント業界の環境デザイナーは、ゲーム、映画、テレビの想像上の2Dおよび3Dシーンを作成し、特定の詳細をきめ細かい制御と一貫したグローバルコヒーレンスの両方を必要としている。
デザイナは、生成AIをワークフローに統合し、大きな言語モデル(LLM)を使用してテキストから画像生成のユーザプロンプトを拡張し、それらのプロンプトを反復的に修正し、ペンキを塗る。
しかし,1)LLM生成プロンプトの長大化は,特定の視覚要素に対して修正すべきキーワードの理解と分離を困難にし,(2)局所的な編集をサポートする一方で,グローバルな一貫性と正しさに苦慮する。
これらの知見に基づいて、AIが生成する画像コンテンツへのマップのプロンプトを明確にすることで、人間とAIのコラボレーションを強化するアプローチであるGenTuneを提案する。
我々のGenTuneシステムは、デザイナが生成した画像の任意の要素を選択し、それを対応するプロンプトラベルにトレースし、それらのラベルを修正して、正確かつ一貫した画像改善をガイドします。
20人のデザイナーによる要約研究において、GenTuneは、現在の実践と比較して、迅速な理解、精細化の質、効率、全体的な満足度(すべて$p < .01$)を著しく改善した。
2つのスタジオによるフォローアップフィールド研究は、実環境におけるその効果をさらに実証した。
関連論文リスト
- Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。
我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。
Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文 参考訳(メタデータ) (2025-08-04T11:49:20Z) - Rethinking Layered Graphic Design Generation with a Top-Down Approach [76.33538798060326]
図形デザインは、アイデアやメッセージを伝えるのに不可欠である。デザイナーは通常、編集を簡単にするために、オブジェクト、背景、ベクトル化されたテキスト層に作業を整理する。
GenAI方式の登場により、ピクセルフォーマットにおける高品質なグラフィックデザインの無限の供給がよりアクセスしやすくなってきた。
これにもかかわらず、非層型設計は人間の設計を刺激し、レイアウトやテキストスタイルの選択に影響を与え、最終的に層型設計を導いた。
本稿では,AI生成したデザインを編集可能な階層化設計に変換する最初の試みとして,グラフィックデザイン生成フレームワークであるAccordionを提案する。
論文 参考訳(メタデータ) (2025-07-08T02:26:08Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - VersaGen: Unleashing Versatile Visual Control for Text-to-Image Synthesis [59.12590059101254]
本稿では,テキスト・トゥ・イメージ(T2I)合成における多目的視覚制御を可能にする生成AIエージェントVersaGenを提案する。
我々は,凍結したT2Iモデルに適応器を訓練し,テキスト支配拡散プロセスに視覚情報を適応させる。
論文 参考訳(メタデータ) (2024-12-16T09:32:23Z) - Alfie: Democratising RGBA Image Generation With No $$$ [33.334956022229846]
本稿では,事前学習した拡散変圧器モデルの推論時挙動を変化させ,RGBA図形の完全自動生成手法を提案する。
我々は、デザインプロジェクトや芸術シーンへのシームレスな統合のために、背景が容易に取り除かれるシャープな刈り取りを行なわずに、被験者全体の生成を強制する。
論文 参考訳(メタデータ) (2024-08-27T07:13:44Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - The Stable Artist: Steering Semantics in Diffusion Latent Space [17.119616029527744]
本稿では,画像生成プロセスのきめ細かい制御を可能にする画像編集手法であるStable Artistを提案する。
主要なコンポーネントはセマンティックガイダンス(SEGA)であり、セマンティックな方向の変数数に沿って拡散過程を制御している。
SEGAは、モデルによって学習された概念の表現に関する洞察を得るために、潜在空間の探索を可能にする。
論文 参考訳(メタデータ) (2022-12-12T16:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。