論文の概要: Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense
in Text Generation Models
- arxiv url: http://arxiv.org/abs/2109.03892v1
- Date: Wed, 8 Sep 2021 19:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:38:52.107453
- Title: Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense
in Text Generation Models
- Title(参考訳): Retrieve, Caption, Generate: テキスト生成モデルにおけるコモンセンス強化のためのビジュアルグラウンド
- Authors: Steven Y. Feng, Kevin Lu, Zhuofu Tao, Malihe Alikhani, Teruko
Mitamura, Eduard Hovy, Varun Gangal
- Abstract要約: テキスト生成におけるトランスフォーマーモデルのコモンセンス向上のための効果的な手法として,画像に含まれるマルチモーダル情報の利用について検討する。
われわれのアプローチをVisCTG: Visually Grounded Concept-to-Text Generationと呼んでいる。
- 参考スコア(独自算出の注目度): 12.488828126859376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the use of multimodal information contained in images as an
effective method for enhancing the commonsense of Transformer models for text
generation. We perform experiments using BART and T5 on concept-to-text
generation, specifically the task of generative commonsense reasoning, or
CommonGen. We call our approach VisCTG: Visually Grounded Concept-to-Text
Generation. VisCTG involves captioning images representing appropriate everyday
scenarios, and using these captions to enrich and steer the generation process.
Comprehensive evaluation and analysis demonstrate that VisCTG noticeably
improves model performance while successfully addressing several issues of the
baseline generations, including poor commonsense, fluency, and specificity.
- Abstract(参考訳): テキスト生成におけるトランスフォーマーモデルのコモンセンス向上のための効果的な手法として,画像に含まれるマルチモーダル情報の利用を検討する。
本稿では,BARTとT5を用いた概念テキスト生成実験,特に生成コモンセンス推論(CommonGen)の課題について述べる。
われわれのアプローチをVisCTG: Visually Grounded Concept-to-Text Generationと呼んでいる。
VisCTGは、適切な日常シナリオを表す画像のキャプションを行い、これらのキャプションを使用して生成プロセスを強化し、管理する。
包括的評価と分析により、VisCTGはモデル性能を著しく向上し、コモンセンス、流布度、特異性など、ベースライン世代におけるいくつかの問題に対処することに成功した。
関連論文リスト
- VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Text-to-Image Generation via Implicit Visual Guidance and Hypernetwork [38.55086153299993]
我々は、暗黙的な視覚誘導損失と生成目的の組み合わせにより、追加の検索画像を受け入れるテキスト・画像生成のためのアプローチを開発する。
符号化層の重み更新を予測するために,新しいハイパーネットワーク変調型ビジュアルテキスト符号化方式を提案する。
実験の結果,既存のGANモデルよりも優れた検索ビジュアルデータを付加したモデルが導出された。
論文 参考訳(メタデータ) (2022-08-17T19:25:00Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。