論文の概要: X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal
Transformers
- arxiv url: http://arxiv.org/abs/2009.11278v1
- Date: Wed, 23 Sep 2020 17:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:10:31.980675
- Title: X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal
Transformers
- Title(参考訳): x-lxmert:マルチモーダルトランスフォーマーによるペイント、キャプション、質問に答える
- Authors: Jaemin Cho, Jiasen Lu, Dustin Schwenk, Hannaneh Hajishirzi, Aniruddha
Kembhavi
- Abstract要約: ViLBERT(英語版)、LXMERT(英語版)、UNITER(英語版)といったマスク言語モデルは、様々なマルチモーダル識別タスクにおける芸術的パフォーマンスの状態を達成している。
最近の研究は、画像キャプションの生成タスクに向けて、そのようなモデルをうまく適応させてきた。
これらのモデルは逆方向に進み、テキストから画像を生成することができるのか?
- 参考スコア(独自算出の注目度): 49.851202669815954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mirroring the success of masked language models, vision-and-language
counterparts like ViLBERT, LXMERT and UNITER have achieved state of the art
performance on a variety of multimodal discriminative tasks like visual
question answering and visual grounding. Recent work has also successfully
adapted such models towards the generative task of image captioning. This begs
the question: Can these models go the other way and generate images from pieces
of text? Our analysis of a popular representative from this model family -
LXMERT - finds that it is unable to generate rich and semantically meaningful
imagery with its current training setup. We introduce X-LXMERT, an extension to
LXMERT with training refinements including: discretizing visual
representations, using uniform masking with a large range of masking ratios and
aligning the right pre-training datasets to the right objectives which enables
it to paint. X-LXMERT's image generation capabilities rival state of the art
generative models while its question answering and captioning abilities remains
comparable to LXMERT. Finally, we demonstrate the generality of these training
refinements by adding image generation capabilities into UNITER to produce
X-UNITER.
- Abstract(参考訳): マスク付き言語モデルの成功を反映して、ViLBERT、LXMERT、UNITERといったヴィジュアル・アンド・ランゲージは、視覚的質問応答や視覚的接地など、さまざまなマルチモーダルな差別的タスクにおいて、アートパフォーマンスの状態を達成している。
近年の研究では、このようなモデルを画像キャプションの生成的タスクにうまく適用している。
これらのモデルは逆の方向に進み、テキストから画像を生成することができるのだろうか?
このモデルファミリLXMERTの一般的な代表者について分析したところ、現在のトレーニング設定でリッチで意味のあるイメージを生成できないことがわかった。
X-LXMERTは、視覚表現の識別、マスキングの幅の広い均一マスクの使用、適切な事前学習データセットの適切な目的への整合化など、訓練の洗練を図ったLXMERTの拡張である。
x-lxmertのイメージ生成能力はアート生成モデルに匹敵するが、質問応答能力やキャプション能力はlxmertに匹敵する。
最後に,画像生成機能をuniterに追加してx-uniterを生成することで,これらのトレーニング改良の汎用性を示す。
関連論文リスト
- X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。
X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。
テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文 参考訳(メタデータ) (2024-12-02T18:59:26Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。