論文の概要: KM-BART: Knowledge Enhanced Multimodal BART for Visual Commonsense
Generation
- arxiv url: http://arxiv.org/abs/2101.00419v1
- Date: Sat, 2 Jan 2021 10:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 10:05:09.188146
- Title: KM-BART: Knowledge Enhanced Multimodal BART for Visual Commonsense
Generation
- Title(参考訳): KM-BART:ビジュアルコモンセンス生成のための知識強化型マルチモーダルBART
- Authors: Yiran Xing, Zai Shi, Zhao Meng, Yunpu Ma, Roger Wattenhofer
- Abstract要約: 知識強化型マルチモーダルBART(KM-BART)を提案する。
KM-BARTは、画像やテキストのマルチモーダル入力から常識の知識を推論できるトランスフォーマーベースのシーケンス・トゥ・シーケンスモデルです。
Visual Commonsense Generationタスクのモデルパフォーマンスを改善するために、新しいプリトレーニングタスクを設計します。
- 参考スコア(独自算出の注目度): 12.238921770499912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Knowledge Enhanced Multimodal BART (KM-BART), which is a
Transformer-based sequence-to-sequence model capable of reasoning about
commonsense knowledge from multimodal inputs of images and texts. We extend the
popular BART architecture to a multi-modal model. We design a new pretraining
task to improve the model performance on Visual Commonsense Generation task.
Our pretraining task improves the Visual Commonsense Generation performance by
leveraging knowledge from a large language model pretrained on an external
knowledge graph. To the best of our knowledge, we are the first to propose a
dedicated task for improving model performance on Visual Commonsense
Generation. Experimental results show that by pretraining, our model reaches
state-of-the-art performance on the Visual Commonsense Generation task.
- Abstract(参考訳): 本稿では、画像やテキストのマルチモーダル入力から常識知識を推論できるトランスフォーマーベースのシーケンス・ツー・シーケンスモデルであるKM-BARTを提案する。
一般的なBARTアーキテクチャをマルチモーダルモデルに拡張する。
我々は,visual commonsense生成タスクのモデル性能を改善するために,新しい事前学習タスクを設計する。
本課題は,外部知識グラフ上で事前学習した大規模言語モデルからの知識を活用し,視覚コモンセンス生成性能を向上させる。
私たちの知る限り、私たちはVisual Commonsense Generationのモデルパフォーマンスを改善するための専用のタスクを最初に提案します。
実験の結果,事前学習により,視覚コモンセンス生成タスクにおいて最先端の性能が得られることがわかった。
関連論文リスト
- Generative Visual Instruction Tuning [11.727612242016871]
本稿では,大規模なマルチモーダルモデルのゼロショット機能を改善するために,自動生成した命令追従データを提案する。
GenLLaVAは、ジェネレーティブな大言語であり、ビジュアルアシスタントである。
我々のモデルはLLaVAよりも優れた視覚理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
論文 参考訳(メタデータ) (2024-06-17T07:06:58Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - A Unified Continuous Learning Framework for Multi-modal Knowledge
Discovery and Pre-training [73.7507857547549]
本稿では,継続的学習フレームワークにおける知識発見とマルチモーダル事前学習の統合を提案する。
知識発見のために、事前訓練されたモデルを用いてグラフ上のクロスモーダルリンクを識別する。
モデル事前トレーニングでは、モデル更新をガイドする外部知識として知識グラフが使用される。
論文 参考訳(メタデータ) (2022-06-11T16:05:06Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - lamBERT: Language and Action Learning Using Multimodal BERT [0.1942428068361014]
本研究では,マルチモーダルBERT(lamBERT)モデルを用いた言語と行動学習を提案する。
実験は、エージェントが適切に振る舞うために言語理解を必要とするグリッド環境で行われる。
lamBERTモデルは、他のモデルと比較してマルチタスク設定や転送設定において高い報酬を得た。
論文 参考訳(メタデータ) (2020-04-15T13:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。