論文の概要: On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization
- arxiv url: http://arxiv.org/abs/2205.11686v1
- Date: Tue, 24 May 2022 00:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 11:59:41.054803
- Title: On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization
- Title(参考訳): 字幕以外の画像からのテキスト生成の進歩について:自己分類の事例研究
- Authors: Shruti Palaskar, Akshita Bhagia, Yonatan Bisk, Florian Metze, Alan W
Black and Ana Marasovic
- Abstract要約: 近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
- 参考スコア(独自算出の注目度): 89.94078728495423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating vision and language has gained notable attention following the
success of pretrained language models. Despite that, a fraction of emerging
multimodal models is suitable for text generation conditioned on images. This
minority is typically developed and evaluated for image captioning, a text
generation task conditioned solely on images with the goal to describe what is
explicitly visible in an image. In this paper, we take a step back and ask: How
do these models work for more complex generative tasks, conditioned on both
text and images? Are models based on joint multimodal pretraining, visually
adapted pretrained language models, or models that combine these two
approaches, more promising for such tasks? We address these questions in the
context of self-rationalization (jointly generating task labels/answers and
free-text explanations) of three tasks: (i) visual question answering in VQA-X,
(ii) visual commonsense reasoning in VCR, and (iii) visual-textual entailment
in E-SNLI-VE. We show that recent advances in each modality, CLIP image
representations and scaling of language models, do not consistently improve
multimodal self-rationalization of tasks with multimodal inputs. We also
observe that no model type works universally the best across tasks/datasets and
finetuning data sizes. Our findings call for a backbone modelling approach that
can be built on to advance text generation from images and text beyond image
captioning.
- Abstract(参考訳): 事前訓練された言語モデルの成功により、視覚と言語の統合が注目されている。
それにもかかわらず、新興のマルチモーダルモデルのごく一部は、画像の条件付きテキスト生成に適している。
この少数派は典型的には画像キャプションのために開発され評価され、画像にはっきりと見えるものを記述することを目的として画像のみに条件付けされたテキスト生成タスクである。
これらのモデルは、テキストと画像の両方で条件付けされた、より複雑な生成タスクに対してどのように機能するのか?
統合マルチモーダル事前学習に基づくモデルや,視覚的に適応した事前学習言語モデル,あるいはこれら2つのアプローチを組み合わせたモデルが,このようなタスクに有望なものなのだろうか?
これらの質問は,3つのタスクの自己合理化(タスクラベル/回答と自由テキスト説明の同時生成)の文脈で対処する。
(i)VQA-Xにおける視覚的質問応答
(ii)vcrにおける視覚的コモンセンス推論、及び
3)E-SNLI-VEの視覚的テキスト化
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
また、タスク/データセットやデータサイズを微調整するモデルタイプが、普遍的に最善を尽くさないことも観察しています。
画像のキャプションを超えて画像やテキストからテキストを生成することを可能にする,バックボーンモデリングアプローチを提案している。
関連論文リスト
- Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。