論文の概要: ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation?
- arxiv url: http://arxiv.org/abs/2412.02368v1
- Date: Tue, 03 Dec 2024 10:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:38.297274
- Title: ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation?
- Title(参考訳): 科学用テキスト・画像生成におけるマルチモーダル大言語モデルはどの程度優れているか?
- Authors: Leixin Zhang, Steffen Eger, Yinjie Cheng, Weihe Zhai, Jonas Belouadi, Christoph Leiter, Simone Paolo Ponzetto, Fahimeh Moafian, Zhixue Zhao,
- Abstract要約: マルチモーダル大言語モデル(LLM)は、テキスト命令から高品質な画像を生成する際、印象的な能力を示した。
この研究は、テキスト記述から科学画像を生成する際のLLMのマルチモーダル能力を評価するために設計されたベンチマークであるScImageを紹介する。
- 参考スコア(独自算出の注目度): 26.133995243580028
- License:
- Abstract: Multimodal large language models (LLMs) have demonstrated impressive capabilities in generating high-quality images from textual instructions. However, their performance in generating scientific images--a critical application for accelerating scientific progress--remains underexplored. In this work, we address this gap by introducing ScImage, a benchmark designed to evaluate the multimodal capabilities of LLMs in generating scientific images from textual descriptions. ScImage assesses three key dimensions of understanding: spatial, numeric, and attribute comprehension, as well as their combinations, focusing on the relationships between scientific objects (e.g., squares, circles). We evaluate five models, GPT-4o, Llama, AutomaTikZ, Dall-E, and StableDiffusion, using two modes of output generation: code-based outputs (Python, TikZ) and direct raster image generation. Additionally, we examine four different input languages: English, German, Farsi, and Chinese. Our evaluation, conducted with 11 scientists across three criteria (correctness, relevance, and scientific accuracy), reveals that while GPT-4o produces outputs of decent quality for simpler prompts involving individual dimensions such as spatial, numeric, or attribute understanding in isolation, all models face challenges in this task, especially for more complex prompts.
- Abstract(参考訳): マルチモーダル大言語モデル(LLM)は、テキスト命令から高品質な画像を生成する際、印象的な能力を示した。
しかし、科学的画像の生成における彼らの業績は、科学的進歩を加速させる重要な応用であり、未発見のまま残されている。
本研究では,テキスト記述から科学画像を生成する際のLLMのマルチモーダル能力を評価するベンチマークであるScImageを導入することで,このギャップに対処する。
ScImageは、空間的、数値的、属性的理解の3つの重要な側面とそれらの組み合わせを評価し、科学的対象(例えば、正方形、円)の関係に焦点を当てている。
GPT-4o, Llama, AutomaTikZ, Dall-E, StableDiffusionの5つのモデルについて,コードベース出力(Python, TikZ)と直接ラスタ画像生成の2つのモードを用いて評価を行った。
さらに、英語、ドイツ語、Farsi、中国語の4つの異なる入力言語について検討する。
GPT-4oは, 空間, 数値, 属性理解などの個々の次元を含む簡易なプロンプトに対して, より複雑なプロンプトに対して, 適切な品質のアウトプットを生成する一方で, より複雑なプロンプトにおいて, 全てのモデルが課題に直面していることが明らかとなった。
関連論文リスト
- Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models [43.16111789538798]
大規模マルチモーダルモデル(LMM)の多言語機能を活用した並列多言語プロンプトを構築する。
3つのベンチマークにおける2つのLMM実験により,提案手法であるPMT2Iが,一般に優れた性能,構成,きめ細かな評価を達成できることが判明した。
論文 参考訳(メタデータ) (2025-01-13T06:41:23Z) - Vision Language Models as Values Detectors [0.034530027457861996]
本稿では,最先端の大規模言語モデルと人間のアノテータのアライメントについて検討する。
我々は、様々な国内シナリオを描いた12枚の画像を作成し、各画像のキー要素を特定するために14個のアノテーションを登録した。
GPT-4oおよび4つのLLaVA変異体を含む5種類のLLMの出力と比較した。
論文 参考訳(メタデータ) (2025-01-07T17:37:57Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - L3GO: Language Agents with Chain-of-3D-Thoughts for Generating
Unconventional Objects [53.4874127399702]
本稿では,3Dメッシュ生成を推論可能な3Dメッシュ生成手法であるL3GO(チェーン・オブ・3D思想)を用いた言語エージェントを提案する。
我々は,新しいベンチマークである Unconventionally Feasible Objects (UFO) と,Blender上に構築されたSimpleBlenv を開発した。
提案手法は,ShapeNet上での3Dメッシュ生成のための標準GPT-4および他の言語エージェントを上回る。
論文 参考訳(メタデータ) (2024-02-14T09:51:05Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。
本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。