Fugu-MT 論文翻訳(概要): Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

論文の概要: Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

arxiv url: http://arxiv.org/abs/2504.08003v1
Date: Wed, 09 Apr 2025 16:10:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 00:56:51.564478
Title: Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
Title（参考訳）: 画像生成と理解は一体化したのか? : GPT-4oの画像生成能力に関する実証的研究
Authors: Ning Li, Jingran Zhang, Justin Cui,
Abstract要約: OpenAIのマルチモーダルGPT-4oは、画像生成と編集において顕著な機能を示した。しかし、世界知識による意味合成を実現する能力は証明されていない。我々の研究は、より堅牢なベンチマークとトレーニング戦略の開発を要求する。
参考スコア（独自算出の注目度）: 6.586119023242877
License: http://creativecommons.org/licenses/by/4.0/
Abstract: OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image generation and editing, yet its ability to achieve world knowledge-informed semantic synthesis--seamlessly integrating domain knowledge, contextual reasoning, and instruction adherence--remains unproven. In this study, we systematically evaluate these capabilities across three critical dimensions: (1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3) Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong capabilities in image generation and editing, our evaluation reveals GPT-4o's persistent limitations: the model frequently defaults to literal interpretations of instructions, inconsistently applies knowledge constraints, and struggles with conditional reasoning tasks. These findings challenge prevailing assumptions about GPT-4o's unified understanding and generation capabilities, exposing significant gaps in its dynamic knowledge integration. Our study calls for the development of more robust benchmarks and training strategies that go beyond surface-level alignment, emphasizing context-aware and reasoning-grounded multimodal generation.
Abstract（参考訳）: OpenAIのマルチモーダルGPT-4oは、画像生成と編集において顕著な能力を示してきたが、その能力は、世界知識によるセマンティックシンセサイザー(ドメイン知識、文脈推論、命令順守をシームレスに統合する)を実現することができる。本研究では,(1)グローバルインストラクション・アジェンス,(2)ファイングラインド編集精度,(3)ポストジェネレーション推論の3つの重要な側面において,これらの能力を体系的に評価する。既存のベンチマークでは画像生成と編集におけるGPT-4oの強みが強調されているが、評価ではGPT-4oの永続的な制限が強調されている。これらの知見は, GPT-4oの統一的理解と生成能力に関する仮定に疑問を呈し, その動的知識統合における大きなギャップを露呈した。我々の研究は、より堅牢なベンチマークとトレーニング戦略を、表面レベルのアライメントを超えて開発し、コンテキスト認識と推論に基づくマルチモーダル生成を強調している。

関連論文リスト

Preliminary Explorations with GPT-4o(mni) Native Image Generation [7.700772640399941]
近年、GPT-4o(mni)による視覚生成能力はOpenAIによってアンロックされている。本稿では,様々なタスクにまたがるGPT-4oの能力について検討する。
論文参考訳（メタデータ） (2025-05-06T19:35:29Z)
An Empirical Study of GPT-4o Image Generation Capabilities [40.86026243294732]
我々は、GPT-4oの画像生成能力について実証的研究を行い、主要なオープンソースおよび商用モデルと比較した。本分析では, GPT-4oの強度と限界を様々な条件下で強調し, GPT-4oを生成モデリングのより広範な進化に導いてくれる。
論文参考訳（メタデータ） (2025-04-08T12:34:36Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [90.65399476233495]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論タイプに焦点を当てている。本稿では,人間の判断とLMM-as-a-judgeアプローチの両方を用いて,指示推論,外観整合性,視覚的可視性を評価する評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation [28.235805447825896]
OpenAIのGPT4oモデルは、画像生成と編集において驚くほど優れた機能を示している。本報告では、GPT-ImgEvalというファーストルック評価ベンチマークについて述べる。 GPT-4oの性能は,生成品質,(2)編集能力,(3)世界知識インフォームド合成の3つの重要な側面にまたがっている。
論文参考訳（メタデータ） (2025-04-03T17:23:16Z)
Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions [2.0411082897313984]
本研究では, LLM, 特に GPT-3.5 と GPT-4 が, グレード9の算数に適した質問をいかに展開できるかを検討する。反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
論文参考訳（メタデータ） (2024-06-20T00:25:43Z)
Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding [114.4754255143887]
私たちは、ポイントクラウドでオブジェクトカテゴリを分類する課題に取り組みます。我々はこれらの課題を克服するためにGPT-4 Vision (GPT-4V) を用いる。ゼロショットポイントクラウド分類の新しいベンチマークを設定しました。
論文参考訳（メタデータ） (2024-01-15T10:16:44Z)
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文参考訳（メタデータ） (2023-11-27T11:29:10Z)
A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供しているしかし、真の課題は知識集約型VQAタスクの領域にある。 1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文参考訳（メタデータ） (2023-11-13T18:22:32Z)
GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文参考訳（メタデータ） (2023-11-02T16:11:09Z)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。 GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。 GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文参考訳（メタデータ） (2023-09-29T17:34:51Z)
Can GPT-4 Perform Neural Architecture Search? [56.98363718371614]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。提案手法である textbfGPT-4 textbfEnhanced textbfNeural archtextbfItecttextbfUre textbfSearch (GENIUS) 我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。
論文参考訳（メタデータ） (2023-04-21T14:06:44Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。