Fugu-MT 論文翻訳(概要): MTTN: Multi-Pair Text to Text Narratives for Prompt Generation

論文の概要: MTTN: Multi-Pair Text to Text Narratives for Prompt Generation

arxiv url: http://arxiv.org/abs/2301.10172v1
Date: Sat, 21 Jan 2023 06:55:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-25 12:59:37.013457
Title: MTTN: Multi-Pair Text to Text Narratives for Prompt Generation
Title（参考訳）: MTTN:プロンプト生成のためのマルチペアテキストとテキストナラティブ
Authors: Archan Ghosh, Debgandhar Ghosh, Madhurima Maji, Suchinta Chanda, Kalporup Goswami
Abstract要約: MTTN は 2.4M 以上の文からなり、5 つの段階にまたがって 12M 以上のペアを合成する。オリジナルの2.4億組のペアは、インターネットリンゴの真のシナリオを生み出すような方法で分解されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The explosive popularity of diffusion models[ 1][ 2][ 3 ] has provided a huge stage for further development in generative-text modelling. As prompt based models are very nuanced, such that a carefully generated prompt can produce truely breath taking images, on the contrary producing powerful or even meaningful prompt is a hit or a miss. To lavish on this we have introduced a large scale derived and synthesized dataset built with on real prompts and indexed with popular image-text datasets like MS-COCO[4 ], Flickr[ 5], etc. We have also introduced staging for these sentences that sequentially reduce the context and increase the complexity, that will further strengthen the output because of the complex annotations that are being created. MTTN consists of over 2.4M sentences that are divided over 5 stages creating a combination amounting to over 12M pairs, along with a vocab size of consisting more than 300 thousands unique words that creates an abundance of variations. The original 2.4M million pairs are broken down in such a manner that it produces a true scenario of internet lingo that is used globally thereby heightening the robustness of the dataset, and any model trained on it.
Abstract（参考訳）: 拡散モデル[1][2][3]の爆発的な人気は、生成文モデリングにおけるさらなる発展の舞台となった。プロンプトベースのモデルは非常にニュアンスが高いので、慎重に生成されたプロンプトが真に息を吐くイメージを生成することができる。そこで私たちは,ms-coco[4 ] や flickr[5] など,一般的なイメージテキストデータセットをインデックス化した,実プロンプトで構築した大規模派生合成データセットを導入しました。また、これらの文のステージングを導入し、コンテキストを逐次減らし、複雑さを増し、作成される複雑なアノテーションのために出力をさらに強化します。 MTTNは5つの段階にまたがる2.4万以上の文からなり、合計12万組の組が作られ、ボクタブのサイズは3万以上のユニークな単語からなり、様々なバリエーションを生み出している。オリジナルの2.4億組のペアは、グローバルに使用されるインターネットリンゴの真のシナリオを生み出すような方法で分解され、データセットの堅牢性とそれに基づいてトレーニングされたモデルが高められる。

関連論文リスト

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-06-23T17:59:14Z)
TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification [32.958143806547234]
テキストpROVEnance(TROVE)チャレンジを導入し、ターゲットテキストの各文を特定のソース文にトレースする。 TROVEをベンチマークするために、11の多様なシナリオをカバーする3つの公開データセットを活用してデータセットを構築します。我々は、直接的プロンプトおよび検索拡張パラダイムの下で11個のLLMを評価する。
論文参考訳（メタデータ） (2025-03-19T15:09:39Z)
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2025-01-23T10:57:22Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文参考訳（メタデータ） (2024-07-11T17:21:03Z)
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。 7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文参考訳（メタデータ） (2024-06-30T15:50:32Z)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (2024-06-12T17:01:04Z)
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文参考訳（メタデータ） (2024-01-01T18:58:42Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文参考訳（メタデータ） (2023-05-18T10:16:19Z)
Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models [37.44999077096415]
ラベルなし音声, ラベルなしテキスト, 教師付きデータを100以上の言語で事前学習した多言語列列列列モデルである Mu$2$SLAM を提案する。 Mu$2$SLAM は、ターゲットとしての音声の量子化表現を活用することで、デコーダ上の T5 と同様のシーケンスからシーケンスへのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスによる音声テキストモデルと、エンコーダ上のマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスモデル(MLM)を訓練する。 Voxpopuli ASRでは、我々のモデルはRNN-Tデコーダで微調整されたmSLAMモデルの性能と一致する。
論文参考訳（メタデータ） (2022-12-19T15:45:36Z)
Conciseness: An Overlooked Language Task [11.940413163824887]
タスクを定義し、要約や単純化といった関連するタスクとは異なることを示す。大規模なニューラルネットワークモデルによるゼロショットセットアップがよく機能しない場合、簡潔性は難しい課題であることを示す。
論文参考訳（メタデータ） (2022-11-08T09:47:11Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)
LAION-5B: An open large-scale dataset for training next generation image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文参考訳（メタデータ） (2022-10-16T00:08:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。