Fugu-MT 論文翻訳(概要): PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models

論文の概要: PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models

arxiv url: http://arxiv.org/abs/2406.11802v3
Date: Sat, 21 Sep 2024 06:53:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 01:22:29.925015
Title: PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models
Title（参考訳）: PhyBench: テキストから画像へのモデル評価のための物理コモンセンスベンチマーク
Authors: Fanqing Meng, Wenqi Shao, Lixin Luo, Yahong Wang, Yiran Chen, Quanfeng Lu, Yue Yang, Tianshuo Yang, Kaipeng Zhang, Yu Qiao, Ping Luo,
Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
参考スコア（独自算出の注目度）: 50.33699462106502
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image (T2I) models have made substantial progress in generating images from textual prompts. However, they frequently fail to produce images consistent with physical commonsense, a vital capability for applications in world simulation and everyday tasks. Current T2I evaluation benchmarks focus on metrics such as accuracy, bias, and safety, neglecting the evaluation of models' internal knowledge, particularly physical commonsense. To address this issue, we introduce PhyBench, a comprehensive T2I evaluation dataset comprising 700 prompts across 4 primary categories: mechanics, optics, thermodynamics, and material properties, encompassing 31 distinct physical scenarios. We assess 6 prominent T2I models, including proprietary models DALLE3 and Gemini, and demonstrate that incorporating physical principles into prompts enhances the models' ability to generate physically accurate images. Our findings reveal that: (1) even advanced models frequently err in various physical scenarios, except for optics; (2) GPT-4o, with item-specific scoring instructions, effectively evaluates the models' understanding of physical commonsense, closely aligning with human assessments; and (3) current T2I models are primarily focused on text-to-image translation, lacking profound reasoning regarding physical commonsense. We advocate for increased attention to the inherent knowledge within T2I models, beyond their utility as mere image generation tools. The data will be available soon.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトから画像を生成するのに大きく進歩している。しかし、彼らはしばしば、世界シミュレーションや日々のタスクにおけるアプリケーションにとって重要な機能である物理コモンセンスと整合したイメージを作成することに失敗する。現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当てており、モデルの内部知識、特に物理コモンセンスの評価を無視している。この問題に対処するために、機械、光学、熱力学、材料特性の4つの主要なカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介し、31の異なる物理シナリオを包含する。プロプライエタリなモデルDALLE3やGeminiを含む6つの著名なT2Iモデルを評価し、物理原理をプロンプトに組み込むことで、物理的に正確な画像を生成する能力を向上させることを実証する。その結果,(1)光学以外の様々な物理的シナリオにおいて,高度なモデルであっても頻繁に現れること,(2)GPT-4oはアイテム固有のスコアリング命令とともに,人間の評価と密接に一致して,物理的コモンセンスの理解を効果的に評価すること,(3)現在のT2Iモデルはテキストから画像への翻訳に重点を置いており,物理的コモンセンスに関する深い推論が欠如していること,などが判明した。我々は、単なる画像生成ツールとしての有用性を超えて、T2Iモデル内の本質的な知識に注意を向けることを提唱する。もうすぐデータが手に入る。

関連論文リスト

Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models [14.187604603759784]
本稿では,テキスト・ビデオ・システムの物理的推論能力を評価するためのベンチマークであるPhysVidBenchを紹介する。各プロンプトに対して、さまざまな最先端モデルを用いてビデオを生成し、3段階評価パイプラインを採用する。 PhysVidBenchは、生成ビデオモデルにおける物理コモンセンスを評価するための構造化、解釈可能なフレームワークを提供する。
論文参考訳（メタデータ） (2025-07-21T17:30:46Z)
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。 OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-06-09T17:50:21Z)
TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。 TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。 T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文参考訳（メタデータ） (2025-06-02T18:44:07Z)
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。 FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-01-23T18:58:33Z)
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts [21.897804514122843]
T2I-FactualBench - 知識集約型概念生成の事実性を評価するために設計された概念とプロンプトの数で、これまでで最大のベンチマークである。 T2I-FactualBenchは、個々の知識概念の基本記憶から、複数の知識概念のより複雑な構成まで、三段階の知識集約型テキスト・画像生成フレームワークで構成されている。
論文参考訳（メタデータ） (2024-12-05T16:21:01Z)
Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。本調査では,T2Iに関する最近の研究440件について概説する。
論文参考訳（メタデータ） (2024-11-25T07:40:32Z)
Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-14T13:52:43Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文参考訳（メタデータ） (2024-10-07T17:56:04Z)
ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文参考訳（メタデータ） (2024-02-09T01:09:21Z)
Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文参考訳（メタデータ） (2022-12-20T06:03:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。