論文の概要: SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
- arxiv url: http://arxiv.org/abs/2505.22126v1
- Date: Wed, 28 May 2025 08:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.512675
- Title: SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
- Title(参考訳): SridBench: 画像生成モデルの科学的研究図面のベンチマーク
- Authors: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang,
- Abstract要約: SridBenchは、科学フィギュア生成のための最初のベンチマークである。
これは13の自然科学とコンピュータ科学の分野にわたる主要な科学論文から1,120の事例で構成されている。
その結果、GPT-4o画像のような最上位モデルでさえ、人間のパフォーマンスに遅れがあることが判明した。
- 参考スコア(独自算出の注目度): 21.81341169834812
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent years have seen rapid advances in AI-driven image generation. Early diffusion models emphasized perceptual quality, while newer multimodal models like GPT-4o-image integrate high-level reasoning, improving semantic understanding and structural composition. Scientific illustration generation exemplifies this evolution: unlike general image synthesis, it demands accurate interpretation of technical content and transformation of abstract ideas into clear, standardized visuals. This task is significantly more knowledge-intensive and laborious, often requiring hours of manual work and specialized tools. Automating it in a controllable, intelligent manner would provide substantial practical value. Yet, no benchmark currently exists to evaluate AI on this front. To fill this gap, we introduce SridBench, the first benchmark for scientific figure generation. It comprises 1,120 instances curated from leading scientific papers across 13 natural and computer science disciplines, collected via human experts and MLLMs. Each sample is evaluated along six dimensions, including semantic fidelity and structural accuracy. Experimental results reveal that even top-tier models like GPT-4o-image lag behind human performance, with common issues in text/visual clarity and scientific correctness. These findings highlight the need for more advanced reasoning-driven visual generation capabilities.
- Abstract(参考訳): 近年、AIによる画像生成が急速に進歩している。
初期の拡散モデルは知覚品質を強調し、GPT-4o-imageのような新しいマルチモーダルモデルは高いレベルの推論を統合し、意味的理解と構造的構成を改善した。
一般的な画像合成とは異なり、技術的内容の正確な解釈と抽象概念の明確で標準化された視覚への変換を要求する。
このタスクは知識集約的で労力がかかり、手作業や専門的なツールを何時間も必要とします。
制御可能でインテリジェントな方法で自動化することは、実質的な価値を提供します。
しかし、この点に関してAIを評価するためのベンチマークは今のところ存在しない。
このギャップを埋めるために、科学フィギュア生成のための最初のベンチマークであるSridBenchを紹介する。
自然科学とコンピュータ科学の13分野にわたる主要な科学論文から、人間の専門家とMLLMを通して収集された1,120の事例で構成されている。
各サンプルは、意味的忠実度と構造的精度を含む6次元に沿って評価される。
実験結果から、GPT-4o画像のような最上位モデルでさえ、テキスト/視覚的明快さと科学的正当性に共通の問題があることが判明した。
これらの知見は、より高度な推論駆動型視覚生成機能の必要性を浮き彫りにしている。
関連論文リスト
- Preliminary Explorations with GPT-4o(mni) Native Image Generation [7.700772640399941]
近年、GPT-4o(mni)による視覚生成能力はOpenAIによってアンロックされている。
本稿では,様々なタスクにまたがるGPT-4oの能力について検討する。
論文 参考訳(メタデータ) (2025-05-06T19:35:29Z) - An Empirical Study of GPT-4o Image Generation Capabilities [40.86026243294732]
我々は、GPT-4oの画像生成能力について実証的研究を行い、主要なオープンソースおよび商用モデルと比較した。
本分析では, GPT-4oの強度と限界を様々な条件下で強調し, GPT-4oを生成モデリングのより広範な進化に導いてくれる。
論文 参考訳(メタデータ) (2025-04-08T12:34:36Z) - Generative Physical AI in Vision: A Survey [78.07014292304373]
遺伝子人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
この変換は、現実的な画像、ビデオ、および3D/4Dコンテンツを生成するための生成モデルの基礎の上に構築されている。
生成モデルが進化して物理リアリズムと動的シミュレーションを統合するにつれ、「世界シミュレータ」として機能する可能性が拡大する。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Perception Over Time: Temporal Dynamics for Robust Image Understanding [5.584060970507506]
ディープラーニングは、狭く特定の視覚タスクにおいて、人間レベルのパフォーマンスを上回る。
人間の視覚知覚は入力刺激の変化に対して、桁違いに頑丈である。
静的画像理解に時間力学を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T21:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。