論文の概要: PromptIQ: Who Cares About Prompts? Let System Handle It -- A Component-Aware Framework for T2I Generation
- arxiv url: http://arxiv.org/abs/2505.06467v1
- Date: Fri, 09 May 2025 23:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.852802
- Title: PromptIQ: Who Cares About Prompts? Let System Handle It -- A Component-Aware Framework for T2I Generation
- Title(参考訳): PromptIQ:誰がプロンプトを気にしているのか? - T2I生成のためのコンポーネント対応フレームワークをシステムに扱わせよう
- Authors: Nisan Chhetri, Arpan Sainju,
- Abstract要約: 本稿では,プロンプトを改良し,画質を評価する自動フレームワークであるPromptIQを紹介する。
従来の方法とは異なり、PromptIQはユーザーが満足するまで画像を反復的に生成し、評価する。
その結果, PromptIQ は生成品質と評価精度を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-quality images without prompt engineering expertise remains a challenge for text-to-image (T2I) models, which often misinterpret poorly structured prompts, leading to distortions and misalignments. While humans easily recognize these flaws, metrics like CLIP fail to capture structural inconsistencies, exposing a key limitation in current evaluation methods. To address this, we introduce PromptIQ, an automated framework that refines prompts and assesses image quality using our novel Component-Aware Similarity (CAS) metric, which detects and penalizes structural errors. Unlike conventional methods, PromptIQ iteratively generates and evaluates images until the user is satisfied, eliminating trial-and-error prompt tuning. Our results show that PromptIQ significantly improves generation quality and evaluation accuracy, making T2I models more accessible for users with little to no prompt engineering expertise.
- Abstract(参考訳): プロンプトエンジニアリングの専門知識のない高品質な画像を生成することはテキスト・ツー・イメージ(T2I)モデルの課題であり、しばしば構造化されていないプロンプトを誤って解釈し、歪みや不適応をもたらす。
人間はこれらの欠陥を容易に認識するが、CLIPのようなメトリクスは構造上の不整合を捉えず、現在の評価方法において重要な制限を露呈する。
この問題を解決するために、我々は新しいコンポーネント・アウェア類似度(CAS)メトリクスを用いて画像品質を改善・評価する自動フレームワークであるPromptIQを導入し、構造的エラーを検出し、ペナルティ化する。
従来の方法とは異なり、PromptIQはユーザが満足するまで画像を反復的に生成し、評価し、試行錯誤のプロンプトチューニングをなくす。
以上の結果から,PromptIQは生成品質と評価精度を著しく向上し,T2Iモデルの利用性が向上した。
関連論文リスト
- Pioneering Reliable Assessment in Text-to-Image Knowledge Editing: Leveraging a Fine-Grained Dataset and an Innovative Criterion [21.37254997228105]
テキスト・トゥ・イメージ(T2I)拡散モデルは、事実知識をパラメータにエンコードする。
知識編集技術は、対象とする方法でモデル知識を更新することを目的としている。
我々は3つのフェーズに網羅してT2I知識編集フレームワークを設計する。
T2I知識編集のためのシンプルだが効果的なアプローチである textbfMPE を導入する。
論文 参考訳(メタデータ) (2024-09-26T15:07:30Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - Feedback is Needed for Retakes: An Explainable Poor Image Notification
Framework for the Visually Impaired [6.0158981171030685]
筆者らのフレームワークはまず画像の品質を判定し,高品質であると判定された画像のみを用いてキャプションを生成する。
ユーザは、画像品質が低ければ再取り込みする欠陥機能により通知され、このサイクルは、入力画像が高品質であると判断されるまで繰り返される。
論文 参考訳(メタデータ) (2022-11-17T09:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。