論文の概要: A very preliminary analysis of DALL-E 2
- arxiv url: http://arxiv.org/abs/2204.13807v2
- Date: Mon, 2 May 2022 19:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 01:14:53.127500
- Title: A very preliminary analysis of DALL-E 2
- Title(参考訳): DALL-E 2 の非常に予備的な解析
- Authors: Gary Marcus, Ernest Davis, Scott Aaronson
- Abstract要約: DALL−E2システムは、入力テキストをキャプションとして対応する独自の合成画像を生成する。
私たちのプロンプトは、ここ数週間で紹介された典型的なものよりも、意図的にはるかに難しかったのです。
一方、どのプロンプトも10枚の画像はすべて私たちの要求を満足させませんでした。
- 参考スコア(独自算出の注目度): 3.781421673607643
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The DALL-E 2 system generates original synthetic images corresponding to an
input text as caption. We report here on the outcome of fourteen tests of this
system designed to assess its common sense, reasoning and ability to understand
complex texts. All of our prompts were intentionally much more challenging than
the typical ones that have been showcased in recent weeks. Nevertheless, for 5
out of the 14 prompts, at least one of the ten images fully satisfied our
requests. On the other hand, on no prompt did all of the ten images satisfy our
requests.
- Abstract(参考訳): DALL−E2システムは、入力テキストをキャプションとして対応する独自の合成画像を生成する。
本システムでは,その共通感覚,推論,複雑なテキストの理解能力を評価するために,14回の試験結果について報告する。
私たちのプロンプトはすべて、この数週間で紹介された典型的なものよりも、意図的にずっと難しいものでした。
それでも、14のプロンプトのうち5つでは、少なくとも10のイメージのうち1つが我々の要求を完全に満たした。
一方、プロンプトでは10枚の画像がすべて私たちの要求を満たしていました。
関連論文リスト
- AIM 2024 Sparse Neural Rendering Challenge: Methods and Results [64.19942455360068]
本稿では,ECCV 2024と共同で開催されるAIM(Advanceds in Image Manipulation)ワークショップの一部であるスパースニューラルレンダリングの課題についてレビューする。
この課題は、スパース画像から多様なシーンを合成する新しいカメラビューを作ることである。
参加者は、Pak Signal-to-Noise Ratio (PSNR) 測定によって測定された地中真実像に対する客観的忠実度を最適化するよう依頼される。
論文 参考訳(メタデータ) (2024-09-23T14:17:40Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - PromptCharm: Text-to-Image Generation through Multi-modal Prompting and
Refinement [12.55886762028225]
PromptCharmは,マルチモーダル・プロンプト・エンジニアリングと改良によるテキスト・ツー・イメージ作成を容易にするシステムである。
PromptCharmは、ユーザーの初期プロンプトを自動的に洗練し、最適化する。
大規模なデータベース内で、さまざまなイメージスタイルを探索し、選択するのをサポートする。
モデルの注意値を視覚化することで、モデル説明を描画する。
論文 参考訳(メタデータ) (2024-03-06T19:55:01Z) - Evaluating GPT-4's Vision Capabilities on Brazilian University Admission
Exams [14.801853435122908]
本稿では,文章要素と視覚要素の両方を組み込んだ,入学試験における言語モデルの評価フレームワークを提案する。
ブラジルの大学が採用している入学試験であるExame Nacional do Ensino M'edio(ENEM)の2つの最新版を評価した。
ハイライトの1つは、視覚コンテンツを翻訳するテキストキャプションが画像の直接使用よりも優れており、視覚モデルに改善の余地があることである。
論文 参考訳(メタデータ) (2023-11-23T19:20:59Z) - A Prompt Log Analysis of Text-to-Image Generation Systems [16.475020581885992]
我々は,3つの人気テキスト・画像システムに対して,200万以上のユーザ・インプットプロンプトを大規模に分析する。
本研究の目的は,テキスト・画像生成システムの構築方法に関する具体的な考察である。
論文 参考訳(メタデータ) (2023-03-08T13:59:41Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - Least-to-Most Prompting Enables Complex Reasoning in Large Language
Models [52.59923418570378]
本稿では, 難解な一般化の課題を克服するために, 最小限のプロンプト戦略を提案する。
最小限のプロンプトは、プロンプトで見られるものよりも難しい問題に一般化可能であることを示す。
SCANの解決を専門とする文献におけるニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体をトレーニングする。
論文 参考訳(メタデータ) (2022-05-21T15:34:53Z) - ConvAI3: Generating Clarifying Questions for Open-Domain Dialogue
Systems (ClariQ) [64.60303062063663]
本論文では,対話システムに対する質問の明確化に関する課題について詳述する(ClariQ)。
このチャレンジは、2020年のSearch Oriented Conversational AI (SCAI) EMNLPワークショップで、ConvAI3(Conversational AI Challenge series)の一部として組織されている。
論文 参考訳(メタデータ) (2020-09-23T19:48:02Z) - The SIGMORPHON 2020 Shared Task on Unsupervised Morphological Paradigm
Completion [28.728844366333185]
本稿では, SIGMORPHON 2020共有課題における非教師なし形態素パラダイムの完成に関する知見について述べる。
参加者は、原文とレムマのリストを入力とし、すべての入力フォームを出力するシステムを提出するよう求められた。
ここでは、この共有タスクがトピックに関するさらなる研究の基礎となるよう分析を行う。
論文 参考訳(メタデータ) (2020-05-28T03:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。