論文の概要: What BERT Sees: Cross-Modal Transfer for Visual Question Generation
- arxiv url: http://arxiv.org/abs/2002.10832v3
- Date: Wed, 16 Dec 2020 15:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:26:23.144589
- Title: What BERT Sees: Cross-Modal Transfer for Visual Question Generation
- Title(参考訳): BERTが見る:視覚的質問生成のためのクロスモーダルトランスファー
- Authors: Thomas Scialom, Patrick Bordes, Paul-Alexis Dray, Jacopo Staiano,
Patrick Gallinari
- Abstract要約: 補足データを用いた事前学習を回避して,BERTのアウト・オブ・ザ・ボックスの視覚能力について検討した。
テキスト生成のためのBERTベースのアーキテクチャであるBERT-genを導入する。
- 参考スコア(独自算出の注目度): 21.640299110619384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have recently contributed to significant advances
in NLP tasks. Recently, multi-modal versions of BERT have been developed, using
heavy pre-training relying on vast corpora of aligned textual and image data,
primarily applied to classification tasks such as VQA. In this paper, we are
interested in evaluating the visual capabilities of BERT out-of-the-box, by
avoiding pre-training made on supplementary data. We choose to study Visual
Question Generation, a task of great interest for grounded dialog, that enables
to study the impact of each modality (as input can be visual and/or textual).
Moreover, the generation aspect of the task requires an adaptation since BERT
is primarily designed as an encoder. We introduce BERT-gen, a BERT-based
architecture for text generation, able to leverage on either mono- or multi-
modal representations. The results reported under different configurations
indicate an innate capacity for BERT-gen to adapt to multi-modal data and text
generation, even with few data available, avoiding expensive pre-training. The
proposed model obtains substantial improvements over the state-of-the-art on
two established VQG datasets.
- Abstract(参考訳): 事前訓練された言語モデルは、最近NLPタスクの大幅な進歩に貢献している。
近年,VQA などの分類タスクに主に適用されるテキストおよび画像データの膨大なコーパスに依存する重大事前学習を用いて,BERT のマルチモーダルバージョンが開発されている。
本稿では,補足データを用いた事前学習を回避し,BERTの視覚能力を評価することに関心がある。
我々は,各モータリティの影響(入力は視覚的および/またはテキスト的であるため)を調査できる,接地ダイアログの課題である視覚的質問生成(Visual Question Generation)を学習することを選択する。
さらに、BERTは主にエンコーダとして設計されているため、タスクの生成には適応が必要である。
テキスト生成のためのBERTベースのアーキテクチャであるBERT-genを導入し,モノモーダル表現とマルチモーダル表現を併用する。
異なる構成で報告された結果は、BERT-genがマルチモーダルデータやテキスト生成に適応する固有の能力を示している。
提案モデルでは,2つの確立されたVQGデータセットの最先端性よりも大幅に改善されている。
関連論文リスト
- Unified Pretraining for Recommendation via Task Hypergraphs [55.98773629788986]
本稿では,タスクハイパーグラフによる推薦のための統一事前学習という,新しいマルチタスク事前学習フレームワークを提案する。
多様なプレテキストタスクの要求やニュアンスを処理するための統一学習パターンとして,プレテキストタスクをハイパーエッジ予測に一般化するタスクハイパーグラフを設計する。
各プレテキストタスクとレコメンデーションの関連性を識別的に学習するために、新しいトランジショナルアテンション層が考案される。
論文 参考訳(メタデータ) (2023-10-20T05:33:21Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - BERT for Sentiment Analysis: Pre-trained and Fine-Tuned Alternatives [0.0]
BERTは、大きな言語モデルで伝達学習を可能にすることで、NLP分野に革命をもたらした。
本稿では、BERT出力層が提供する異なる埋め込みと、多言語モデルの代わりに言語固有の使用について、よりよく対処する方法について研究する。
論文 参考訳(メタデータ) (2022-01-10T15:05:05Z) - Transferring BERT-like Transformers' Knowledge for Authorship
Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:57:29Z) - BERTGEN: Multi-task Generation through BERT [30.905286823599976]
本稿では,マルチモーダルモデルと多言語事前学習モデルとを融合させることにより,BERTを拡張した新規なデコーダ専用モデルであるBERTGENを提案する。
総合的な評価によって、BERTGENは探索されたタスク全体で多くの強いベースラインを上回ります。
また、BERTGENのゼロショット言語生成能力を示すとともに、教師付き言語と競合する性能を示す。
論文 参考訳(メタデータ) (2021-06-07T10:17:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Table Search Using a Deep Contextualized Language Model [20.041167804194707]
本稿では、アドホックテーブル検索のタスクに、文脈化言語モデルBERTを用いる。
本稿では,テーブル検索における先行文献の特徴を取り入れた手法を提案し,BERTと共同で学習する。
論文 参考訳(メタデータ) (2020-05-19T04:18:04Z) - Enriched Pre-trained Transformers for Joint Slot Filling and Intent
Detection [22.883725214057286]
本稿では,意図に基づく言語モデル学習のための新しいアーキテクチャを提案する。
そこで本研究では,意図分布,単語特徴,トークン表現を融合させることで,スロット充足作業の強化を図る。
標準データセットによる実験結果から,我々のモデルは現在の非BERT状態と,より強力なBERTベースラインの両方に優れることがわかった。
論文 参考訳(メタデータ) (2020-04-30T15:00:21Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。