論文の概要: Prompt fidelity of ChatGPT4o / Dall-E3 text-to-image visualisations
- arxiv url: http://arxiv.org/abs/2510.21821v1
- Date: Tue, 21 Oct 2025 21:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.909236
- Title: Prompt fidelity of ChatGPT4o / Dall-E3 text-to-image visualisations
- Title(参考訳): ChatGPT4o / Dall-E3 text-to-image visualization のプロンプト忠実度
- Authors: Dirk HR Spennemann,
- Abstract要約: 本研究は,ChatGPT4o/DALL-E3テキスト・ツー・イメージ・ビジュアライゼーションの即時性について,自動生成プロンプトで明示的に指定された属性が結果画像に正しく描画されているかどうかを解析することによって検討する。
ほとんどの場合正しくレンダリングされるが、DALL-E3は全ての属性の15.6%のプロンプト仕様から逸脱した。
これらの結果は, 偏差検出とモデル評価に影響を及ぼす要因として, 被写体間ギャップの測定が可能であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study examines the prompt fidelity of ChatGPT4o / DALL-E3 text-to-image visualisations by analysing whether attributes explicitly specified in autogenously generated prompts are correctly rendered in the resulting images. Using two public-domain datasets comprising 200 visualisations of women working in the cultural and creative industries and 230 visualisations of museum curators, the study assessed accuracy across personal attributes (age, hair), appearance (attire, glasses), and paraphernalia (name tags, clipboards). While correctly rendered in most cases, DALL-E3 deviated from prompt specifications in 15.6% of all attributes (n=710). Errors were lowest for paraphernalia, moderate for personal appearance, and highest for depictions of the person themselves, particularly age. These findings demonstrate measurable prompt-to-image fidelity gaps with implications for bias detection and model evaluation.
- Abstract(参考訳): 本研究は,ChatGPT4o/DALL-E3テキスト・ツー・イメージ・ビジュアライゼーションの即時性について,自動生成プロンプトで明示的に指定された属性が結果画像に正しく描画されているかどうかを解析することによって検討する。
文化的・創造的な産業で働く女性の200の可視化と博物館のキュレーターの230の可視化を含む2つのパブリックドメインデータセットを用いて、研究は個人属性(年齢、髪、外観(属性、メガネ)、およびパラファーナリア(名前タグ、クリップボード)の精度を評価した。
ほとんどの場合正しくレンダリングされるが、DALL-E3は全ての属性(n=710)の15.6%でプロンプト仕様から逸脱した。
エラーは、パラファーナリアでは最低であり、個人的外観では適度であり、人物自身、特に年齢の描写では最高であった。
これらの結果は, 偏差検出とモデル評価に影響を及ぼす要因として, 被写体間ギャップの測定が可能であった。
関連論文リスト
- Gender Stereotypes in Professional Roles Among Saudis: An Analytical Study of AI-Generated Images Using Language Models [0.6053648545114841]
ImageFX, DALL-E V3, およびGrokが生成した1,006の画像を, 56種類のサウジアラビアの専門職に対して分析した。
ImageFXの出力は85%が男性、Grok 86.6%が男性、DALL-E V3が96%である。
反ステレオタイプ的イメージは、真に進歩的な描写というよりはむしろ文化的な誤解から生じることが多い。
論文 参考訳(メタデータ) (2025-09-25T19:30:51Z) - Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment [8.451522319478512]
各種コンセントから抽出された1,343枚の画像検索ペアからなるニューズ画像ベンチマークを導入する。
我々は、最先端のVLMの評価を行い、人間の検証を伴って、大きな言語モデル(LLM)を判断に用いた。
その結果, (i) 視覚的文脈は, モデル出力をオープンエンド設定で体系的に変化させる; (ii) バイアスの頻度は属性やモデルによって異なり, 特に性別や職業のリスクが高い; (iii) より高い忠実度は必ずしも低いバイアスに対応しないことがわかった。
論文 参考訳(メタデータ) (2025-09-24T00:33:58Z) - Tell Me Without Telling Me: Two-Way Prediction of Visualization Literacy and Visual Attention [20.87674676293376]
視覚データ探索における注意パターンは,参加者のリテラシーレベルと相関することを示す。
これらの知見を活用する2つの計算モデル(Lit2SalとSal2Lit)を提案する。
論文 参考訳(メタデータ) (2025-07-22T20:18:45Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
KITTENはKnowledge-InTensiveイメージジェネラティオンのベンチマークである。
我々は最新のテキスト・画像モデルと検索強化モデルについて体系的な研究を行う。
分析によると、高度なテキスト・ツー・イメージモデルでさえ、エンティティの正確な視覚的詳細を生成できない。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - FaceGemma: Enhancing Image Captioning with Facial Attributes for Portrait Images [0.0]
FaceGemmaは感情、表情、特徴などの顔の特徴を正確に記述するモデルである。
平均BLEU-1スコアは0.364, METEORスコアは0.355であった。
論文 参考訳(メタデータ) (2023-09-24T10:30:22Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。