論文の概要: ChatGPT is not all you need. A State of the Art Review of large
Generative AI models
- arxiv url: http://arxiv.org/abs/2301.04655v1
- Date: Wed, 11 Jan 2023 15:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:42:18.809594
- Title: ChatGPT is not all you need. A State of the Art Review of large
Generative AI models
- Title(参考訳): ChatGPTは必要なだけではありません。
大規模生成型aiモデルのアートレビューの現状
- Authors: Roberto Gozalo-Brizuela, Eduardo C. Garrido-Merchan
- Abstract要約: この研究は、生成AIによって影響を受ける主要なモデルを簡潔に記述し、最近出版された主要な生成モデルの分類を提供する試みである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During the last two years there has been a plethora of large generative
models such as ChatGPT or Stable Diffusion that have been published.
Concretely, these models are able to perform tasks such as being a general
question and answering system or automatically creating artistic images that
are revolutionizing several sectors. Consequently, the implications that these
generative models have in the industry and society are enormous, as several job
positions may be transformed. For example, Generative AI is capable of
transforming effectively and creatively texts to images, like the DALLE-2
model; text to 3D images, like the Dreamfusion model; images to text, like the
Flamingo model; texts to video, like the Phenaki model; texts to audio, like
the AudioLM model; texts to other texts, like ChatGPT; texts to code, like the
Codex model; texts to scientific texts, like the Galactica model or even create
algorithms like AlphaTensor. This work consists on an attempt to describe in a
concise way the main models are sectors that are affected by generative AI and
to provide a taxonomy of the main generative models published recently.
- Abstract(参考訳): 過去2年間、chatgptや安定拡散といった大規模な生成モデルが数多く発表されてきた。
具体的には、これらのモデルは一般的な質問や回答システム、あるいはいくつかの分野に革命をもたらす芸術的イメージを自動生成するといったタスクを実行できる。
その結果、これらの生成モデルが産業や社会に持つ意味は巨大であり、いくつかの職位が転換される可能性がある。
例えば、Generative AIは、DALLE-2モデルのような効果的で創造的なテキストから、Dreamfusionモデルのような3D画像へのテキスト変換、Flamingoモデルのようなテキストへのテキスト、Phenakiモデルのようなビデオへのテキスト、AudioLMモデルのようなオーディオへのテキスト、ChatGPTのような他のテキストへのテキスト、Codexモデルのようなコードへのテキスト、Galacticaモデルのような科学テキストへのテキスト、さらにはAlphaTensorのようなアルゴリズムの作成といったことができる。
この研究は、生成AIによって影響を受けるセクターのモデルを、簡潔な方法で記述し、最近公開された主要な生成モデルの分類を提供する試みである。
関連論文リスト
- Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation [12.024554708901514]
テキスト・ツー・イメージ生成のための多種多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
私たちのパイプラインは、様々な言語モデルと生成視覚モデルと互換性があり、異なる構造を収容しています。
論文 参考訳(メタデータ) (2024-03-12T17:50:11Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Text-to-image Diffusion Models in Generative AI: A Survey [86.11421833017693]
本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。
ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Are You Robert or RoBERTa? Deceiving Online Authorship Attribution
Models Using Neural Text Generators [3.9533044769534444]
GPT-2とXLM言語モデルは、既存のオンラインユーザー投稿を使ってテキストを生成するために使用される。
次に、これらAIベースのテキストジェネレータが、典型的AAモデルを欺くことができる程度に、著者スタイルを模倣できるかどうかを検討する。
本稿は、著者のスタイルを模倣できるオリジナルのオンライン投稿を生成するために、強力な自然言語モデルが現在持っている能力を強調した。
論文 参考訳(メタデータ) (2022-03-18T09:19:14Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。