論文の概要: MTTN: Multi-Pair Text to Text Narratives for Prompt Generation
- arxiv url: http://arxiv.org/abs/2301.10172v1
- Date: Sat, 21 Jan 2023 06:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:59:37.013457
- Title: MTTN: Multi-Pair Text to Text Narratives for Prompt Generation
- Title(参考訳): MTTN:プロンプト生成のためのマルチペアテキストとテキストナラティブ
- Authors: Archan Ghosh, Debgandhar Ghosh, Madhurima Maji, Suchinta Chanda,
Kalporup Goswami
- Abstract要約: MTTN は 2.4M 以上の文からなり、5 つの段階にまたがって 12M 以上のペアを合成する。
オリジナルの2.4億組のペアは、インターネットリンゴの真のシナリオを生み出すような方法で分解されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The explosive popularity of diffusion models[ 1][ 2][ 3 ] has provided a huge
stage for further development in generative-text modelling. As prompt based
models are very nuanced, such that a carefully generated prompt can produce
truely breath taking images, on the contrary producing powerful or even
meaningful prompt is a hit or a miss. To lavish on this we have introduced a
large scale derived and synthesized dataset built with on real prompts and
indexed with popular image-text datasets like MS-COCO[4 ], Flickr[ 5], etc. We
have also introduced staging for these sentences that sequentially reduce the
context and increase the complexity, that will further strengthen the output
because of the complex annotations that are being created. MTTN consists of
over 2.4M sentences that are divided over 5 stages creating a combination
amounting to over 12M pairs, along with a vocab size of consisting more than
300 thousands unique words that creates an abundance of variations. The
original 2.4M million pairs are broken down in such a manner that it produces a
true scenario of internet lingo that is used globally thereby heightening the
robustness of the dataset, and any model trained on it.
- Abstract(参考訳): 拡散モデル[1][2][3]の爆発的な人気は、生成文モデリングにおけるさらなる発展の舞台となった。
プロンプトベースのモデルは非常にニュアンスが高いので、慎重に生成されたプロンプトが真に息を吐くイメージを生成することができる。
そこで私たちは,ms-coco[4 ] や flickr[5] など,一般的なイメージテキストデータセットをインデックス化した,実プロンプトで構築した大規模派生合成データセットを導入しました。
また、これらの文のステージングを導入し、コンテキストを逐次減らし、複雑さを増し、作成される複雑なアノテーションのために出力をさらに強化します。
MTTNは5つの段階にまたがる2.4万以上の文からなり、合計12万組の組が作られ、ボクタブのサイズは3万以上のユニークな単語からなり、様々なバリエーションを生み出している。
オリジナルの2.4億組のペアは、グローバルに使用されるインターネットリンゴの真のシナリオを生み出すような方法で分解され、データセットの堅牢性とそれに基づいてトレーニングされたモデルが高められる。
関連論文リスト
- COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Kosmos-2.5: A Multimodal Literate Model [143.4565835051535]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。
2つの異なるが協調的な転写タスクに優れる。
テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文 参考訳(メタデータ) (2023-09-20T15:50:08Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models [37.44999077096415]
ラベルなし音声, ラベルなしテキスト, 教師付きデータを100以上の言語で事前学習した多言語列列列列モデルである Mu$2$SLAM を提案する。
Mu$2$SLAM は、ターゲットとしての音声の量子化表現を活用することで、デコーダ上の T5 と同様のシーケンスからシーケンスへのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスによる音声テキストモデルと、エンコーダ上のマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスモデル(MLM)を訓練する。
Voxpopuli ASRでは、我々のモデルはRNN-Tデコーダで微調整されたmSLAMモデルの性能と一致する。
論文 参考訳(メタデータ) (2022-12-19T15:45:36Z) - Conciseness: An Overlooked Language Task [11.940413163824887]
タスクを定義し、要約や単純化といった関連するタスクとは異なることを示す。
大規模なニューラルネットワークモデルによるゼロショットセットアップがよく機能しない場合、簡潔性は難しい課題であることを示す。
論文 参考訳(メタデータ) (2022-11-08T09:47:11Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。