論文の概要: Universal Multimodal Representation for Language Understanding
- arxiv url: http://arxiv.org/abs/2301.03344v1
- Date: Mon, 9 Jan 2023 13:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:30:18.853589
- Title: Universal Multimodal Representation for Language Understanding
- Title(参考訳): 言語理解のためのユニバーサルマルチモーダル表現
- Authors: Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita,
Zuchao Li, Hai Zhao
- Abstract要約: 本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
- 参考スコア(独自算出の注目度): 110.98786673598015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning is the foundation of natural language processing
(NLP). This work presents new methods to employ visual information as assistant
signals to general NLP tasks. For each sentence, we first retrieve a flexible
number of images either from a light topic-image lookup table extracted over
the existing sentence-image pairs or a shared cross-modal embedding space that
is pre-trained on out-of-shelf text-image pairs. Then, the text and images are
encoded by a Transformer encoder and convolutional neural network,
respectively. The two sequences of representations are further fused by an
attention layer for the interaction of the two modalities. In this study, the
retrieval process is controllable and flexible. The universal visual
representation overcomes the lack of large-scale bilingual sentence-image
pairs. Our method can be easily applied to text-only tasks without manually
annotated multimodal parallel corpora. We apply the proposed method to a wide
range of natural language generation and understanding tasks, including neural
machine translation, natural language inference, and semantic similarity.
Experimental results show that our method is generally effective for different
tasks and languages. Analysis indicates that the visual signals enrich textual
representations of content words, provide fine-grained grounding information
about the relationship between concepts and events, and potentially conduce to
disambiguation.
- Abstract(参考訳): 表現学習は自然言語処理(NLP)の基礎である。
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像対上で抽出された軽トピック-画像検索テーブルや、既成のテキスト-画像対上で事前訓練された共有モード間埋め込み空間から、柔軟な画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
2つの表現列はさらに2つのモードの相互作用の注意層によって融合される。
本研究では,検索プロセスは制御可能で柔軟である。
普遍視覚表現は、大規模なバイリンガル文-画像ペアの欠如を克服する。
本手法は,マルチモーダル並列コーパスを手動でアノテートすることなく,テキストのみのタスクに容易に適用できる。
提案手法は,ニューラルマシン翻訳,自然言語推論,意味的類似性など,幅広い自然言語生成と理解タスクに適用する。
実験の結果,本手法は様々なタスクや言語に一般的に有効であることがわかった。
分析の結果、視覚信号は内容語のテキスト表現を豊かにし、概念と出来事の関係に関するきめ細かい基礎情報を提供し、曖昧さを生じさせる可能性が示唆された。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - UNIMO-2: End-to-End Unified Vision-Language Grounded Learning [46.914284894632]
本稿では, エンドツーエンドの統一モーダル事前学習フレームワーク, UNIMO-2を提案する。
我々は、画像とテキスト間の視覚表現、テキスト表現、意味的アライメントを共同で学習する統合トランスフォーマーモデルを構築した。
コードとモデルは、UNIMOプロジェクトページで公開されています。
論文 参考訳(メタデータ) (2022-03-17T03:53:11Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。