論文の概要: OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2310.07749v2
- Date: Fri, 3 Nov 2023 17:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:25:50.776721
- Title: OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation
- Title(参考訳): OpenLEAF: オープンドメインのインターリーブ画像-テキスト生成と評価
- Authors: Jie An, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng
Liu, Lijuan Wang, Jiebo Luo
- Abstract要約: 本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。
まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
- 参考スコア(独自算出の注目度): 151.57313182844936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates a challenging task named open-domain interleaved
image-text generation, which generates interleaved texts and images following
an input query. We propose a new interleaved generation framework based on
prompting large-language models (LLMs) and pre-trained text-to-image (T2I)
models, namely OpenLEAF. In OpenLEAF, the LLM generates textual descriptions,
coordinates T2I models, creates visual prompts for generating images, and
incorporates global contexts into the T2I models. This global context improves
the entity and style consistencies of images in the interleaved generation. For
model assessment, we first propose to use large multi-modal models (LMMs) to
evaluate the entity and style consistencies of open-domain interleaved
image-text sequences. According to the LMM evaluation on our constructed
evaluation set, the proposed interleaved generation framework can generate
high-quality image-text content for various domains and applications, such as
how-to question answering, storytelling, graphical story rewriting, and
webpage/poster generation tasks. Moreover, we validate the effectiveness of the
proposed LMM evaluation technique with human assessment. We hope our proposed
framework, benchmark, and LMM evaluation could help establish the intriguing
interleaved image-text generation task.
- Abstract(参考訳): 本研究ではオープンドメインインターリーブ画像テキスト生成という課題について検討し,入力クエリに従ってインターリーブ画像と画像を生成する。
本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。
OpenLEAFでは、LLMはテキスト記述を生成し、T2Iモデルをコーディネートし、画像を生成する視覚的プロンプトを生成し、グローバルコンテキストをT2Iモデルに組み込む。
このグローバルコンテキストは、インターリーブ世代における画像の実体とスタイルを改善します。
まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
構築した評価セットのlmm評価によれば,提案手法は質問応答,ストーリーテリング,グラフィカルストーリー書き換え,webページ/ポスト生成タスクなど,さまざまなドメインやアプリケーションに対して高品質な画像テキストコンテンツを生成することができる。
また,人間評価を用いたLMM評価手法の有効性を検証した。
提案するフレームワーク,ベンチマーク,LMM評価が,興味深いインターリーブ画像テキスト生成タスクの確立に役立つことを期待する。
関連論文リスト
- MM-Interleaved: Interleaved Image-Text Generative Modeling via
Multi-modal Feature Synchronizer [109.40910418388881]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - ZRIGF: An Innovative Multimodal Framework for Zero-Resource
Image-Grounded Dialogue Generation [17.310200022696016]
ZRIGFは2段階の学習戦略を実装し、対照的な事前学習と生成的事前学習を含む。
テキストベースと画像グラウンドの対話データセットを用いた総合的な実験は、ZRIGFが文脈的に関連する情報的応答を生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-08-01T09:28:36Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。