Fugu-MT 論文翻訳(概要): ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation

論文の概要: ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation

arxiv url: http://arxiv.org/abs/2106.05970v1
Date: Thu, 10 Jun 2021 17:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-11 14:45:51.684533
Title: ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation
Title（参考訳）: ImaginE: 自然言語生成のためのイマジネーションに基づく自動評価指標
Authors: Wanrong Zhu, Xin Eric Wang, An Yan, Miguel Eckstein, William Yang Wang
Abstract要約: 我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
参考スコア（独自算出の注目度）: 53.56628907030751
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic evaluations for natural language generation (NLG) conventionally rely on token-level or embedding-level comparisons with the text references. This is different from human language processing, for which visual imaginations often improve comprehension. In this work, we propose ImaginE, an imagination-based automatic evaluation metric for natural language generation. With the help of CLIP and DALL-E, two cross-modal models pre-trained on large-scale image-text pairs, we automatically generate an image as the embodied imagination for the text snippet and compute the imagination similarity using contextual embeddings. Experiments spanning several text generation tasks demonstrate that adding imagination with our ImaginE displays great potential in introducing multi-modal information into NLG evaluation, and improves existing automatic metrics' correlations with human similarity judgments in many circumstances.
Abstract（参考訳）: 自然言語生成(nlg)の自動評価は、通常、トークンレベルや埋め込みレベルの比較に依存する。これは、視覚の想像力がしばしば理解を改善する人間の言語処理とは異なる。本稿では,自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 clipとdall-eの助けを借りて,テキストスニペットの具体化された想像力としてイメージを自動的に生成し,文脈埋め込みを用いて想像の類似性を計算する。いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることで、NLG評価にマルチモーダル情報を導入する大きな可能性を示し、多くの状況において人間の類似性判定と既存の自動メトリクスの相関性を改善することが示されている。

関連論文リスト

TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
TexAVi: Generating Stereoscopic VR Video Clips from Text Descriptions [0.562479170374811]
本稿では,既存の生成システムを融合してテキストから立体視のバーチャルリアリティービデオを作成する手法を提案する。私たちの研究は、バーチャルリアリティーシミュレーションのような分野において自然言語駆動グラフィックスを使うことのエキサイティングな可能性を強調します。
論文参考訳（メタデータ） (2025-01-02T09:21:03Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
Zero-shot Commonsense Reasoning over Machine Imagination [14.350718566829343]
機械生成画像から得られる視覚信号とテキスト入力を補完する新しいゼロショットコモンセンス推論フレームワークであるImagineを提案する。報告バイアスを緩和し、一般化能力を増強する際の機械的想像力の強さを強調し、既存の手法を大きなマージンで上回ることを示す。
論文参考訳（メタデータ） (2024-10-12T02:15:11Z)
Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文参考訳（メタデータ） (2023-05-26T13:59:45Z)
Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文参考訳（メタデータ） (2023-05-11T17:45:16Z)
Visualize Before You Write: Imagination-Guided Open-Ended Text Generation [68.96699389728964]
我々は、機械生成画像を用いて、オープンエンドテキスト生成における言語モデルをガイドするiNLGを提案する。オープンエンドテキスト生成タスクにおけるiNLGの有効性について実験と解析を行った。
論文参考訳（メタデータ） (2022-10-07T18:01:09Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。