Fugu-MT 論文翻訳(概要): Architecture inside the mirage: evaluating generative image models on architectural style, elements, and typologies

論文の概要: Architecture inside the mirage: evaluating generative image models on architectural style, elements, and typologies

arxiv url: http://arxiv.org/abs/2601.09169v1
Date: Wed, 14 Jan 2026 05:13:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-15 18:59:20.277034
Title: Architecture inside the mirage: evaluating generative image models on architectural style, elements, and typologies
Title（参考訳）: ミラージュ内部の建築--建築様式・要素・型に関する生成的イメージモデルの評価
Authors: Jamie Magrill, Leah Gornstein, Sandra Seekins, Barry Magrill,
Abstract要約: ジェネレーティブ・人工知能(GenAI)のテキスト・トゥ・イメージ・システムは、ますます建築画像の生成に利用されている。我々は、30のアーキテクチャ的プロンプトを用いた5つの広く使われているGenAI画像プラットフォームを、スタイル、タイプ、およびコード化要素を用いて評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative artificial intelligence (GenAI) text-to-image systems are increasingly used to generate architectural imagery, yet their capacity to reproduce accurate images in a historically rule-bound field remains poorly characterized. We evaluated five widely used GenAI image platforms (Adobe Firefly, DALL-E 3, Google Imagen 3, Microsoft Image Generator, and Midjourney) using 30 architectural prompts spanning styles, typologies, and codified elements. Each prompt-generator pair produced four images (n = 600 images total). Two architectural historians independently scored each image for accuracy against predefined criteria, resolving disagreements by consensus. Set-level performance was summarized as zero to four accurate images per four-image set. Image output from Common prompts was 2.7-fold more accurate than from Rare prompts (p < 0.05). Across platforms, overall accuracy was limited (highest accuracy score 52 percent; lowest 32 percent; mean 42 percent). All-correct (4 out of 4) outcomes were similar across platforms. By contrast, all-incorrect (0 out of 4) outcomes varied substantially, with Imagen 3 exhibiting the fewest failures and Microsoft Image Generator exhibiting the highest number of failures. Qualitative review of the image dataset identified recurring patterns including over-embellishment, confusion between medieval styles and their later revivals, and misrepresentation of descriptive prompts (for example, egg-and-dart, banded column, pendentive). These findings support the need for visible labeling of GenAI synthetic content, provenance standards for future training datasets, and cautious educational use of GenAI architectural imagery.
Abstract（参考訳）: ジェネレーティブ・人工知能(GenAI)テキスト・トゥ・イメージ・システムは、建築画像の生成にますます利用されているが、歴史的ルールバウンド・フィールドで正確な画像を再現する能力は、いまだに不十分である。我々は、30のアーキテクチャ上のプロンプト、タイプ、コード化された要素を使用して、広く使われているGenAIイメージプラットフォーム(Adobe Firefly、DALL-E 3、Google Imagen 3、Microsoft Image Generator、Midjourney)を評価した。各プロンプト・ジェネレータペアは4つの画像を生成する(n = 600 画像)。 2人の建築史家は、事前に定義された基準に対してそれぞれのイメージを正確に評価し、コンセンサスによる意見の相違を解消した。セットレベルの性能は4画像ごとにゼロから4つの正確な画像と要約された。コモンプロンプトからの画像出力は、レアプロンプトより2.7倍(p < 0.05)正確であった。プラットフォーム全体では、全体的な精度は制限されていた(最高精度は52%、最低32%、平均42%)。全正当(4つ中4つ)の結果はプラットフォーム間で類似していた。対照的に、すべての誤り(4点中0点)は大幅に異なり、Imagen 3は最も少ない失敗を示し、Microsoft Image Generatorは最も多くの失敗を示した。画像データセットの質的なレビューでは、オーバーエンプレッション、中世のスタイルとその後のリバイバルの混乱、説明的プロンプト(卵とダート、帯状カラム、ペンデントなど)の誤表現などの繰り返しパターンが特定された。これらの知見は、GenAI合成コンテンツの可視的ラベル付けの必要性、将来のトレーニングデータセットの証明基準、およびGenAIアーキテクチャイメージの慎重な教育的利用を支持する。

関連論文リスト

Socratic-Geo: Synthetic Data Generation and Geometric Reasoning via Multi-Agent Interaction [11.021067780524348]
Socratic-Geoは、マルチエージェントインタラクションを通じてデータ合成とモデル学習を結合する、完全に自律的なフレームワークである。 Socratic-rは6つのベンチマークで4分の1のベースラインデータを使用して49.11を達成し、強いベースラインを2.43ポイント上回る。 Socratic-GeneratorはGenExamで42.4%を達成した。
論文参考訳（メタデータ） (2026-02-03T11:42:25Z)
Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation [45.113322731299476]
GPT-4oは、画像生成における強力なパフォーマンスに対して大きな注目を集めているが、オープンソースモデルはいまだに遅れを取っている。 GPT-4oによって生成された180Kスケールの合成データセットであるEcho-4o-Imageを紹介する。
論文参考訳（メタデータ） (2025-08-13T17:59:28Z)
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis [57.249817395828174]
本研究では,3次元都市規模のメッシュからの擬似合成レンダリングと,実地レベルでのクラウドソース画像を組み合わせたスケーラブルなフレームワークを提案する。擬似合成データは、幅広い空中視点をシミュレートする一方、実際のクラウドソース画像は、地上レベルの画像の視覚的忠実度を改善するのに役立つ。このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、実世界のゼロショット地上作業において大幅な改善を実現する。
論文参考訳（メタデータ） (2025-04-17T17:57:05Z)
An Empirical Study of GPT-4o Image Generation Capabilities [40.86026243294732]
我々は、GPT-4oの画像生成能力について実証的研究を行い、主要なオープンソースおよび商用モデルと比較した。本分析では, GPT-4oの強度と限界を様々な条件下で強調し, GPT-4oを生成モデリングのより広範な進化に導いてくれる。
論文参考訳（メタデータ） (2025-04-08T12:34:36Z)
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。 VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文参考訳（メタデータ） (2024-06-19T18:00:07Z)
Evaluating Text-to-Visual Generation with Image-to-Text Generation [113.07368313330994]
VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
論文参考訳（メタデータ） (2024-04-01T17:58:06Z)
ImagenHub: Standardizing the evaluation of conditional image generation models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文参考訳（メタデータ） (2023-10-02T19:41:42Z)
Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文参考訳（メタデータ） (2023-03-08T14:54:51Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文参考訳（メタデータ） (2021-12-09T18:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。