論文の概要: A Picture is Worth a Thousand Prompts? Efficacy of Iterative Human-Driven Prompt Refinement in Image Regeneration Tasks
- arxiv url: http://arxiv.org/abs/2504.20340v1
- Date: Tue, 29 Apr 2025 01:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.707502
- Title: A Picture is Worth a Thousand Prompts? Efficacy of Iterative Human-Driven Prompt Refinement in Image Regeneration Tasks
- Title(参考訳): 写真は1万プンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプンプ
- Authors: Khoi Trinh, Scott Seidenberger, Raveen Wijewickrama, Murtuza Jadliwala, Anindya Maiti,
- Abstract要約: AI生成画像の作成はしばしば、望ましい視覚的な結果を達成するために、入力プロンプトを反復的に精細化する。
この研究は、AIを用いた画像再生という比較的未解明の概念に焦点を当てている。
本稿では,反復的プロンプトリファインメントが,再生画像の目標に対する類似性にどのように影響するかを,構造化されたユーザスタディで評価する。
- 参考スコア(独自算出の注目度): 1.8563642867160601
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With AI-generated content becoming ubiquitous across the web, social media, and other digital platforms, it is vital to examine how such content are inspired and generated. The creation of AI-generated images often involves refining the input prompt iteratively to achieve desired visual outcomes. This study focuses on the relatively underexplored concept of image regeneration using AI, in which a human operator attempts to closely recreate a specific target image by iteratively refining their prompt. Image regeneration is distinct from normal image generation, which lacks any predefined visual reference. A separate challenge lies in determining whether existing image similarity metrics (ISMs) can provide reliable, objective feedback in iterative workflows, given that we do not fully understand if subjective human judgments of similarity align with these metrics. Consequently, we must first validate their alignment with human perception before assessing their potential as a feedback mechanism in the iterative prompt refinement process. To address these research gaps, we present a structured user study evaluating how iterative prompt refinement affects the similarity of regenerated images relative to their targets, while also examining whether ISMs capture the same improvements perceived by human observers. Our findings suggest that incremental prompt adjustments substantially improve alignment, verified through both subjective evaluations and quantitative measures, underscoring the broader potential of iterative workflows to enhance generative AI content creation across various application domains.
- Abstract(参考訳): AIによって生成されたコンテンツは、ウェブ、ソーシャルメディア、その他のデジタルプラットフォームで広く普及しているため、そのようなコンテンツがどのようにインスパイアされ、生成されるかを調べることが不可欠である。
AI生成画像の作成はしばしば、望ましい視覚的な結果を達成するために、入力プロンプトを反復的に精細化する。
本研究は,AIを用いた画像再生の比較的過小評価された概念に着目し,人間の操作者がプロンプトを反復的に精製することで,特定の対象画像を忠実に再現しようとするものである。
画像再生は、事前に定義されたビジュアル参照が欠けている通常の画像生成とは異なる。
既存の画像類似度指標(ISM)が反復的ワークフローにおいて信頼性があり客観的なフィードバックを提供することができるかどうかを判断することは別の課題である。
その結果、我々はまず、反復的即興改善プロセスにおけるフィードバックメカニズムとしての可能性を評価する前に、人間の知覚との整合性を検証する必要がある。
これらの研究ギャップに対処するため、本研究では、再現的プロンプト改善が、目標に対して再生画像の類似性にどのように影響するかを評価するとともに、IMSが人間の観察者によって認識されるのと同じ改善を捉えているかどうかを検討する。
この結果から,インクリメンタル・インシデント・アシデントによるアライメントの大幅な改善,主観的評価と定量的評価の両面での検証が示唆され,様々なアプリケーション領域におけるAIコンテンツ生成の促進を目的とした反復的ワークフローの可能性が示唆された。
関連論文リスト
- An Image-like Diffusion Method for Human-Object Interaction Detection [13.951650101149188]
人物対毎のHOI検出の出力を画像として再キャストすることができる。
HOI-IDiffでは、画像のような拡散プロセスを用いてHOI検出出力を画像として生成し、新しい視点からHOI検出に取り組む。
論文 参考訳(メタデータ) (2025-03-23T16:30:16Z) - Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。
現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。
トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-09T14:14:02Z) - Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent [9.748808189341526]
有効なテキスト・ツー・イメージ(T2I)評価指標は以下のとおりである: 生成された画像がテキストのプロンプトと一致しないインスタンスを検出する。
抽出したシーングラフを用いて質問応答を行うための大規模言語モデル (LLM) に基づく手法を提案し, 生成された画像に対する評価スコアを用いたデータセットを作成する。
論文 参考訳(メタデータ) (2024-12-07T18:44:38Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Anomaly Score: Evaluating Generative Models and Individual Generated Images based on Complexity and Vulnerability [21.355484227864466]
生成した画像の表現空間と入力空間の関係について検討する。
異常スコア(AS)と呼ばれる画像生成モデルを評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-17T07:33:06Z) - Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。
検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。
本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:22:58Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。