論文の概要: PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2406.11802v3
- Date: Sat, 21 Sep 2024 06:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 01:22:29.925015
- Title: PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models
- Title(参考訳): PhyBench: テキストから画像へのモデル評価のための物理コモンセンスベンチマーク
- Authors: Fanqing Meng, Wenqi Shao, Lixin Luo, Yahong Wang, Yiran Chen, Quanfeng Lu, Yue Yang, Tianshuo Yang, Kaipeng Zhang, Yu Qiao, Ping Luo,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
- 参考スコア(独自算出の注目度): 50.33699462106502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models have made substantial progress in generating images from textual prompts. However, they frequently fail to produce images consistent with physical commonsense, a vital capability for applications in world simulation and everyday tasks. Current T2I evaluation benchmarks focus on metrics such as accuracy, bias, and safety, neglecting the evaluation of models' internal knowledge, particularly physical commonsense. To address this issue, we introduce PhyBench, a comprehensive T2I evaluation dataset comprising 700 prompts across 4 primary categories: mechanics, optics, thermodynamics, and material properties, encompassing 31 distinct physical scenarios. We assess 6 prominent T2I models, including proprietary models DALLE3 and Gemini, and demonstrate that incorporating physical principles into prompts enhances the models' ability to generate physically accurate images. Our findings reveal that: (1) even advanced models frequently err in various physical scenarios, except for optics; (2) GPT-4o, with item-specific scoring instructions, effectively evaluates the models' understanding of physical commonsense, closely aligning with human assessments; and (3) current T2I models are primarily focused on text-to-image translation, lacking profound reasoning regarding physical commonsense. We advocate for increased attention to the inherent knowledge within T2I models, beyond their utility as mere image generation tools. The data will be available soon.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトから画像を生成するのに大きく進歩している。
しかし、彼らはしばしば、世界シミュレーションや日々のタスクにおけるアプリケーションにとって重要な機能である物理コモンセンスと整合したイメージを作成することに失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当てており、モデルの内部知識、特に物理コモンセンスの評価を無視している。
この問題に対処するために、機械、光学、熱力学、材料特性の4つの主要なカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介し、31の異なる物理シナリオを包含する。
プロプライエタリなモデルDALLE3やGeminiを含む6つの著名なT2Iモデルを評価し、物理原理をプロンプトに組み込むことで、物理的に正確な画像を生成する能力を向上させることを実証する。
その結果,(1)光学以外の様々な物理的シナリオにおいて,高度なモデルであっても頻繁に現れること,(2)GPT-4oはアイテム固有のスコアリング命令とともに,人間の評価と密接に一致して,物理的コモンセンスの理解を効果的に評価すること,(3)現在のT2Iモデルはテキストから画像への翻訳に重点を置いており,物理的コモンセンスに関する深い推論が欠如していること,などが判明した。
我々は、単なる画像生成ツールとしての有用性を超えて、T2Iモデル内の本質的な知識に注意を向けることを提唱する。
もうすぐデータが手に入る。
関連論文リスト
- Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。
本調査では,T2Iに関する最近の研究440件について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:40:32Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。