論文の概要: DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated
Content
- arxiv url: http://arxiv.org/abs/2312.10407v2
- Date: Sun, 24 Dec 2023 18:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:45:11.227002
- Title: DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated
Content
- Title(参考訳): deepart:ai生成コンテンツの忠実性研究を促進するベンチマーク
- Authors: Wentao Wang, Xuanyao Huang, Tianyang Wang, Swalpa Kumar Roy
- Abstract要約: 本稿では,マルチモーダル大言語モデルであるGPT-4の画像合成機能について検討する。
GPT-4で生成した画像のテクスチャ特性の忠実度を評価するためのベンチマークを,手作業で描いた絵とそのAI生成画像から作成する。
我々は手動描画と対応するGPT-4生成画像のユニークなベンチマークをコンパイルし、AI生成コンテンツにおける忠実度研究を促進するための新しいタスクを導入した。
- 参考スコア(独自算出の注目度): 9.482738088610535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the image synthesis capabilities of GPT-4, a leading
multi-modal large language model. We establish a benchmark for evaluating the
fidelity of texture features in images generated by GPT-4, comprising manually
painted pictures and their AI-generated counterparts. The contributions of this
study are threefold: First, we provide an in-depth analysis of the fidelity of
image synthesis features based on GPT-4, marking the first such study on this
state-of-the-art model. Second, the quantitative and qualitative experiments
fully reveals the limitations of the GPT-4 model in image synthesis. Third, we
have compiled a unique benchmark of manual drawings and corresponding
GPT-4-generated images, introducing a new task to advance fidelity research in
AI-generated content (AIGC). The dataset is available at:
\url{https://github.com/rickwang28574/DeepArt}.
- Abstract(参考訳): 本稿では,マルチモーダル大言語モデルであるGPT-4の画像合成機能について検討する。
本稿では,gpt-4で生成した画像のテクスチャ特徴の忠実性を評価するためのベンチマークを構築した。
まず、gpt-4に基づく画像合成機能の忠実性に関する詳細な分析を行い、この最先端モデルに関する最初の研究となる。
第2に、定量および定性的実験により、画像合成におけるGPT-4モデルの限界が完全に明らかになった。
第3に,手動図面とそれに対応するGPT-4生成画像のユニークなベンチマークをコンパイルし,AIGC(AIGC)における忠実度研究を進めるための新たなタスクを導入した。
データセットは \url{https://github.com/rickwang28574/deepart} で利用可能である。
関連論文リスト
- An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。
Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。
本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-02T08:29:23Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - Gemini Pro Defeated by GPT-4V: Evidence from Education [1.0226894006814744]
GPT-4Vは、スコアリング精度と四重み付きカッパの点でゲミニプロを著しく上回っている。
GPT-4Vは複雑な教育課題に対処する能力に優れていた。
論文 参考訳(メタデータ) (2023-12-27T02:56:41Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Can GPT-4 Perform Neural Architecture Search? [56.98363718371614]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。
提案手法である textbfGPT-4 textbfEnhanced textbfNeural archtextbfItecttextbfUre textbfSearch (GENIUS)
我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。
論文 参考訳(メタデータ) (2023-04-21T14:06:44Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。