論文の概要: Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense
in Text Generation Models
- arxiv url: http://arxiv.org/abs/2109.03892v1
- Date: Wed, 8 Sep 2021 19:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:38:52.107453
- Title: Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense
in Text Generation Models
- Title(参考訳): Retrieve, Caption, Generate: テキスト生成モデルにおけるコモンセンス強化のためのビジュアルグラウンド
- Authors: Steven Y. Feng, Kevin Lu, Zhuofu Tao, Malihe Alikhani, Teruko
Mitamura, Eduard Hovy, Varun Gangal
- Abstract要約: テキスト生成におけるトランスフォーマーモデルのコモンセンス向上のための効果的な手法として,画像に含まれるマルチモーダル情報の利用について検討する。
われわれのアプローチをVisCTG: Visually Grounded Concept-to-Text Generationと呼んでいる。
- 参考スコア(独自算出の注目度): 12.488828126859376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the use of multimodal information contained in images as an
effective method for enhancing the commonsense of Transformer models for text
generation. We perform experiments using BART and T5 on concept-to-text
generation, specifically the task of generative commonsense reasoning, or
CommonGen. We call our approach VisCTG: Visually Grounded Concept-to-Text
Generation. VisCTG involves captioning images representing appropriate everyday
scenarios, and using these captions to enrich and steer the generation process.
Comprehensive evaluation and analysis demonstrate that VisCTG noticeably
improves model performance while successfully addressing several issues of the
baseline generations, including poor commonsense, fluency, and specificity.
- Abstract(参考訳): テキスト生成におけるトランスフォーマーモデルのコモンセンス向上のための効果的な手法として,画像に含まれるマルチモーダル情報の利用を検討する。
本稿では,BARTとT5を用いた概念テキスト生成実験,特に生成コモンセンス推論(CommonGen)の課題について述べる。
われわれのアプローチをVisCTG: Visually Grounded Concept-to-Text Generationと呼んでいる。
VisCTGは、適切な日常シナリオを表す画像のキャプションを行い、これらのキャプションを使用して生成プロセスを強化し、管理する。
包括的評価と分析により、VisCTGはモデル性能を著しく向上し、コモンセンス、流布度、特異性など、ベースライン世代におけるいくつかの問題に対処することに成功した。
関連論文リスト
- MiniGPT-5: Interleaved Vision-and-Language Generation via Generative
Vokens [25.628246171480512]
我々は「生成ヴォケン」という概念を取り入れた革新的視覚・言語生成手法を導入する。
提案手法の特徴は,記述自由なマルチモーダル生成に着目した2段階の訓練戦略である。
我々のモデルであるMiniGPT-5は、MDDialogデータセットのベースラインダイバータモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-03T17:49:04Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Text-to-Image Generation via Implicit Visual Guidance and Hypernetwork [38.55086153299993]
我々は、暗黙的な視覚誘導損失と生成目的の組み合わせにより、追加の検索画像を受け入れるテキスト・画像生成のためのアプローチを開発する。
符号化層の重み更新を予測するために,新しいハイパーネットワーク変調型ビジュアルテキスト符号化方式を提案する。
実験の結果,既存のGANモデルよりも優れた検索ビジュアルデータを付加したモデルが導出された。
論文 参考訳(メタデータ) (2022-08-17T19:25:00Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。