論文の概要: MTTN: Multi-Pair Text to Text Narratives for Prompt Generation
- arxiv url: http://arxiv.org/abs/2301.10172v1
- Date: Sat, 21 Jan 2023 06:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:59:37.013457
- Title: MTTN: Multi-Pair Text to Text Narratives for Prompt Generation
- Title(参考訳): MTTN:プロンプト生成のためのマルチペアテキストとテキストナラティブ
- Authors: Archan Ghosh, Debgandhar Ghosh, Madhurima Maji, Suchinta Chanda,
Kalporup Goswami
- Abstract要約: MTTN は 2.4M 以上の文からなり、5 つの段階にまたがって 12M 以上のペアを合成する。
オリジナルの2.4億組のペアは、インターネットリンゴの真のシナリオを生み出すような方法で分解されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The explosive popularity of diffusion models[ 1][ 2][ 3 ] has provided a huge
stage for further development in generative-text modelling. As prompt based
models are very nuanced, such that a carefully generated prompt can produce
truely breath taking images, on the contrary producing powerful or even
meaningful prompt is a hit or a miss. To lavish on this we have introduced a
large scale derived and synthesized dataset built with on real prompts and
indexed with popular image-text datasets like MS-COCO[4 ], Flickr[ 5], etc. We
have also introduced staging for these sentences that sequentially reduce the
context and increase the complexity, that will further strengthen the output
because of the complex annotations that are being created. MTTN consists of
over 2.4M sentences that are divided over 5 stages creating a combination
amounting to over 12M pairs, along with a vocab size of consisting more than
300 thousands unique words that creates an abundance of variations. The
original 2.4M million pairs are broken down in such a manner that it produces a
true scenario of internet lingo that is used globally thereby heightening the
robustness of the dataset, and any model trained on it.
- Abstract(参考訳): 拡散モデル[1][2][3]の爆発的な人気は、生成文モデリングにおけるさらなる発展の舞台となった。
プロンプトベースのモデルは非常にニュアンスが高いので、慎重に生成されたプロンプトが真に息を吐くイメージを生成することができる。
そこで私たちは,ms-coco[4 ] や flickr[5] など,一般的なイメージテキストデータセットをインデックス化した,実プロンプトで構築した大規模派生合成データセットを導入しました。
また、これらの文のステージングを導入し、コンテキストを逐次減らし、複雑さを増し、作成される複雑なアノテーションのために出力をさらに強化します。
MTTNは5つの段階にまたがる2.4万以上の文からなり、合計12万組の組が作られ、ボクタブのサイズは3万以上のユニークな単語からなり、様々なバリエーションを生み出している。
オリジナルの2.4億組のペアは、グローバルに使用されるインターネットリンゴの真のシナリオを生み出すような方法で分解され、データセットの堅牢性とそれに基づいてトレーニングされたモデルが高められる。
関連論文リスト
- SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。
7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-06-30T15:50:32Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models [37.44999077096415]
ラベルなし音声, ラベルなしテキスト, 教師付きデータを100以上の言語で事前学習した多言語列列列列モデルである Mu$2$SLAM を提案する。
Mu$2$SLAM は、ターゲットとしての音声の量子化表現を活用することで、デコーダ上の T5 と同様のシーケンスからシーケンスへのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスによる音声テキストモデルと、エンコーダ上のマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスモデル(MLM)を訓練する。
Voxpopuli ASRでは、我々のモデルはRNN-Tデコーダで微調整されたmSLAMモデルの性能と一致する。
論文 参考訳(メタデータ) (2022-12-19T15:45:36Z) - Conciseness: An Overlooked Language Task [11.940413163824887]
タスクを定義し、要約や単純化といった関連するタスクとは異なることを示す。
大規模なニューラルネットワークモデルによるゼロショットセットアップがよく機能しない場合、簡潔性は難しい課題であることを示す。
論文 参考訳(メタデータ) (2022-11-08T09:47:11Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。