論文の概要: Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network
- arxiv url: http://arxiv.org/abs/2101.11562v1
- Date: Wed, 27 Jan 2021 17:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:48:17.936146
- Title: Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network
- Title(参考訳): デカップリング型エンコーダデコーダネットワークを用いた視覚言語前訓練のスケジュールサンプリング
- Authors: Yehao Li and Yingwei Pan and Ting Yao and Jingwen Chen and Tao Mei
- Abstract要約: 本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 99.03895740754402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite having impressive vision-language (VL) pretraining with BERT-based
encoder for VL understanding, the pretraining of a universal encoder-decoder
for both VL understanding and generation remains challenging. The difficulty
originates from the inherently different peculiarities of the two disciplines,
e.g., VL understanding tasks capitalize on the unrestricted message passing
across modalities, while generation tasks only employ visual-to-textual message
passing. In this paper, we start with a two-stream decoupled design of
encoder-decoder structure, in which two decoupled cross-modal encoder and
decoder are involved to separately perform each type of proxy tasks, for
simultaneous VL understanding and generation pretraining. Moreover, for VL
pretraining, the dominant way is to replace some input visual/word tokens with
mask tokens and enforce the multi-modal encoder/decoder to reconstruct the
original tokens, but no mask token is involved when fine-tuning on downstream
tasks. As an alternative, we propose a primary scheduled sampling strategy that
elegantly mitigates such discrepancy via pretraining encoder-decoder in a
two-pass manner. Extensive experiments demonstrate the compelling
generalizability of our pretrained encoder-decoder by fine-tuning on four VL
understanding and generation downstream tasks. Source code is available at
\url{https://github.com/YehLi/TDEN}.
- Abstract(参考訳): VL理解のためのBERTベースのエンコーダによる印象的なビジョン言語(VL)プリトレーニングがあるにもかかわらず、VL理解と生成の両方のためのユニバーサルエンコーダデコーダのプリトレーニングは依然として困難です。
この難しさは、2つの分野の本質的に異なる特質、例えばVL理解タスクは、モダリティをまたいだ制限のないメッセージパッシングを生かし、生成タスクは、視覚的からテキスト的メッセージパッシングのみを使用する。
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが,VL理解と生成事前学習を同時に行うために,各タイプのプロキシタスクを個別に実行する,エンコーダ・デコーダ構造の2ストリーム分離設計から始める。
さらに、VLプリトレーニングでは、入力されたビジュアル/ワードトークンをマスクトークンに置き換え、マルチモーダルエンコーダ/デコーダを強制して元のトークンを再構築するが、下流タスクの微調整ではマスクトークンは関与しない。
代替案として,2パス方式のプリトレーニングエンコーダデコーダにより,このような不一致をエレガントに緩和する一次スケジュールサンプリング戦略を提案する。
4つのVL理解と下流タスクの生成を微調整することで、事前訓練したエンコーダデコーダの強制的な一般化性を実証した。
ソースコードは \url{https://github.com/YehLi/TDEN} で入手できる。
関連論文リスト
- i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文 参考訳(メタデータ) (2023-05-21T01:25:44Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文 参考訳(メタデータ) (2021-09-27T14:06:47Z) - Parallel Refinements for Lexically Constrained Text Generation with BART [0.0]
語彙制約付きテキスト生成のための制約付きBART(CBART)を提案する。
CBARTは、このタスクを2つのサブタスクに分解することで、デコーダからエンコーダに生成負荷の一部を転送し、文質を向上させる。
One-Billion-WordとYelpの実験結果によると、CBARTは高い品質と多様性を持つ可塑性テキストを生成できるが、推論は著しく加速する。
論文 参考訳(メタデータ) (2021-09-26T03:56:45Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。