論文の概要: Visualize Before You Write: Imagination-Guided Open-Ended Text
Generation
- arxiv url: http://arxiv.org/abs/2210.03765v1
- Date: Fri, 7 Oct 2022 18:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:31:45.873653
- Title: Visualize Before You Write: Imagination-Guided Open-Ended Text
Generation
- Title(参考訳): 書く前に視覚化する:イマジネーションガイド付きオープンエンドテキスト生成
- Authors: Wanrong Zhu, An Yan, Yujie Lu, Wenda Xu, Xin Eric Wang, Miguel
Eckstein, William Yang Wang
- Abstract要約: 我々は、機械生成画像を用いて、オープンエンドテキスト生成における言語モデルをガイドするiNLGを提案する。
オープンエンドテキスト生成タスクにおけるiNLGの有効性について実験と解析を行った。
- 参考スコア(独自算出の注目度): 68.96699389728964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image synthesis make it possible to visualize
machine imaginations for a given context. On the other hand, when generating
text, human writers are gifted at creative visualization, which enhances their
writings by forming imaginations as blueprints before putting down the stories
in words. Inspired by such a cognitive process, we ask the natural question of
whether we can endow machines with the same ability to utilize visual
information and construct a general picture of the context to guide text
generation. In this work, we propose iNLG that uses machine-generated images to
guide language models (LM) in open-ended text generation. The experiments and
analyses demonstrate the effectiveness of iNLG on open-ended text generation
tasks, including text completion, story generation, and concept-to-text
generation in few-shot scenarios. Both automatic metrics and human evaluations
verify that the text snippets generated by our iNLG are coherent and
informative while displaying minor degeneration.
- Abstract(参考訳): テキストから画像への合成の最近の進歩により、与えられた文脈で機械の想像力を視覚化できるようになった。
一方、テキストを生成する場合、人間作家は創造的な視覚化を得意とし、ストーリーを言葉で書き下す前に、想像力を青写真として形成することで文章を充実させる。
このような認知過程に触発されて、視覚情報を利用したり、文脈の全体像を構築してテキスト生成を導くことができるかという自然な疑問に答える。
本研究では,オープンエンドテキスト生成において,機械生成画像を用いて言語モデル(LM)をガイドするiNLGを提案する。
実験と分析により, iNLG がテキスト補完, ストーリー生成, コンセプト・ツー・テキスト生成などのオープンエンドテキスト生成タスクに有効であることを示す。
自動測定と人的評価の両方で、iNLGが生成したテキストスニペットが、微弱な変性を示しながら、一貫性と情報的であることを検証している。
関連論文リスト
- SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives [3.5001789247699535]
本稿では,ジェネレーティブ・人工知能(GenAI)を利用した子ども向けのストーリーテリングを支援する教育ツールのコンセプトを紹介する。
このシステムは、GenAIによる物語の共創、テキストから音声への変換、およびテキストからビデオへの生成を組み合わせることで、学習者にとって魅力的な体験を生み出す。
論文 参考訳(メタデータ) (2024-09-17T15:10:23Z) - The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective [4.471962177124311]
ストーリーテリングの観点からテキスト・ビデオ生成について検討するが,研究はほとんど行われていない。
本稿では,映像のストーリーテリングに関する評価フレームワークを提案し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-05-13T02:25:08Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - FairyTailor: A Multimodal Generative Framework for Storytelling [33.39639788612019]
本稿では,人間とループによるビジュアルストーリーのコクリエーションのためのシステムとデモ,FairyTailorを紹介する。
ユーザは、生成されたテキストを織り、入力で検索した画像を織り込むことで、結束した子供の妖精を作ることができる。
我々の知る限り、これはテキストと画像の両方のインタラクティブなコフォームを可能にするマルチモーダルなストーリー生成のための最初の動的ツールである。
論文 参考訳(メタデータ) (2021-07-13T02:45:08Z) - ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural
Language Generation [53.56628907030751]
我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。
CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。
いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
論文 参考訳(メタデータ) (2021-06-10T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。