Fugu-MT 論文翻訳(概要): DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content

論文の概要: DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content

arxiv url: http://arxiv.org/abs/2312.10407v1
Date: Sat, 16 Dec 2023 10:17:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 16:39:17.199445
Title: DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content
Title（参考訳）: deepart:ai生成コンテンツの忠実性研究を促進するベンチマーク
Authors: Wentao Wang, Xuanyao Huang, Swalpa Kumar Roy
Abstract要約: 本稿では,マルチモーダル大言語モデルであるGPT-4の画像合成機能について検討する。 GPT-4で生成した画像のテクスチャ特性の忠実度を評価するためのベンチマークを,手作業で描いた絵とそのAI生成画像から作成する。
参考スコア（独自算出の注目度）: 8.113935277500444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the image synthesis capabilities of GPT-4, a leading multi-modal large language model. We establish a benchmark for evaluating the fidelity of texture features in images generated by GPT-4, comprising manually painted pictures and their AI-generated counterparts. The contributions of this study are threefold: First, we provide an in-depth analysis of the fidelity of image synthesis features based on GPT-4, marking the first such study on this state-of-the-art model. Second, the quantitative and qualitative experiments fully reveals the limitations of the GPT-4 model in image synthesis. Third, we have compiled a unique benchmark of manual drawings and corresponding GPT-4-generated images, introducing a new task to advance fidelity research in AI-generated content (AIGC). The dataset will be available after being accepted: \url{https://github.com/rickwang28574/DeepArt}. We hope this study will fuel knowledge, scholarship, and innovation, inspiring uses that transform how we discover and understand the world of art and promote the development of AIGC while retaining respect for art.
Abstract（参考訳）: 本稿では,マルチモーダル大言語モデルであるGPT-4の画像合成機能について検討する。本稿では,gpt-4で生成した画像のテクスチャ特徴の忠実性を評価するためのベンチマークを構築した。まず、gpt-4に基づく画像合成機能の忠実性に関する詳細な分析を行い、この最先端モデルに関する最初の研究となる。第2に、定量および定性的実験により、画像合成におけるGPT-4モデルの限界が完全に明らかになった。第3に,手動図面とそれに対応するGPT-4生成画像のユニークなベンチマークをコンパイルし,AIGC(AIGC)における忠実度研究を進めるための新たなタスクを導入した。データセットは、承認された後に提供される。 \url{https://github.com/rickwang28574/DeepArt}。この研究が知識、奨学金、イノベーションを助長し、芸術の世界を発見し、理解し、芸術への敬意を維持しながらAIGCの発展を促進させる方法を変えることを願っている。

関連論文リスト

Can ChatGPT Perform Image Splicing Detection? A Preliminary Study [0.0]
GPT-4Vのようなマルチモーダル大言語モデル(MLLM)は、テキストと画像のモダリティを推論することができる。ゼロショット(ZS)、フューショット(FS)、チェーン・オブ・ソート(CoT)の3つのプロンプト戦略を用いてGPT-4Vを評価する。以上の結果から,GPT-4Vはゼロショット環境での競合検出性能(精度85%以上)を達成することが示された。
論文参考訳（メタデータ） (2025-05-22T13:53:53Z)
Preliminary Explorations with GPT-4o(mni) Native Image Generation [7.700772640399941]
近年、GPT-4o(mni)による視覚生成能力はOpenAIによってアンロックされている。本稿では,様々なタスクにまたがるGPT-4oの能力について検討する。
論文参考訳（メタデータ） (2025-05-06T19:35:29Z)
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability [6.586119023242877]
OpenAIのマルチモーダルGPT-4oは、画像生成と編集において顕著な機能を示した。しかし、世界知識による意味合成を実現する能力は証明されていない。我々の研究は、より堅牢なベンチマークとトレーニング戦略の開発を要求する。
論文参考訳（メタデータ） (2025-04-09T16:10:15Z)
An Empirical Study of GPT-4o Image Generation Capabilities [40.86026243294732]
我々は、GPT-4oの画像生成能力について実証的研究を行い、主要なオープンソースおよび商用モデルと比較した。本分析では, GPT-4oの強度と限界を様々な条件下で強調し, GPT-4oを生成モデリングのより広範な進化に導いてくれる。
論文参考訳（メタデータ） (2025-04-08T12:34:36Z)
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation [28.235805447825896]
OpenAIのGPT4oモデルは、画像生成と編集において驚くほど優れた機能を示している。本報告では、GPT-ImgEvalというファーストルック評価ベンチマークについて述べる。 GPT-4oの性能は,生成品質,(2)編集能力,(3)世界知識インフォームド合成の3つの重要な側面にまたがっている。
論文参考訳（メタデータ） (2025-04-03T17:23:16Z)
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark [63.97125827026949]
本稿では、ゼロショット設定でテキスト・ツー・イメージ・モデルを用いて分類概念の画像を生成する可能性について検討する。分類概念を理解し、関連する高品質の画像を生成するモデルの能力を評価するベンチマークが提案されている。 9つの新しい分類関連テキスト・ツー・イメージ・メトリクスと人間のフィードバックを用いて12のモデルを評価した。
論文参考訳（メタデータ） (2025-03-13T13:37:54Z)
Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images [0.5825410941577593]
本稿では,テキスト検出,テキスト抽出,テキスト解析を含むPHI検出のためのAIベースのパイプラインを提案する。 YOLOv11、EasyOCR、GPT-4oの3つのモデルを、これらのコンポーネントに対応する異なる設定でベンチマークする。テキストローカライゼーションのためのYOLOv11と、抽出と解析のためのGPT-4oを組み合わせることで、最良の結果が得られる。
論文参考訳（メタデータ） (2025-01-16T14:12:33Z)
An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。 Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文参考訳（メタデータ） (2024-06-02T08:29:23Z)
Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。 LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文参考訳（メタデータ） (2023-12-28T18:59:55Z)
Gemini Pro Defeated by GPT-4V: Evidence from Education [1.0226894006814744]
GPT-4Vは、スコアリング精度と四重み付きカッパの点でゲミニプロを著しく上回っている。 GPT-4Vは複雑な教育課題に対処する能力に優れていた。
論文参考訳（メタデータ） (2023-12-27T02:56:41Z)
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。分析の核となるのは、各モデルの視覚的理解能力である。両モデルのユニークな強みとニッチを照らし出した。
論文参考訳（メタデータ） (2023-12-22T18:59:58Z)
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文参考訳（メタデータ） (2023-11-27T11:29:10Z)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。 GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。 GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文参考訳（メタデータ） (2023-09-29T17:34:51Z)
Can GPT-4 Perform Neural Architecture Search? [56.98363718371614]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。提案手法である textbfGPT-4 textbfEnhanced textbfNeural archtextbfItecttextbfUre textbfSearch (GENIUS) 我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。
論文参考訳（メタデータ） (2023-04-21T14:06:44Z)
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文参考訳（メタデータ） (2023-04-20T18:25:35Z)
IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。 IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文参考訳（メタデータ） (2021-04-13T02:00:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。