論文の概要: Unsupervised Natural Language Inference via Decoupled Multimodal
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2010.08200v1
- Date: Fri, 16 Oct 2020 07:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:13:48.440088
- Title: Unsupervised Natural Language Inference via Decoupled Multimodal
Contrastive Learning
- Title(参考訳): マルチモーダルコントラスト学習による教師なし自然言語推論
- Authors: Wanyun Cui, Guangyu Zheng, Wei Wang
- Abstract要約: 本稿では,タスク非依存型マルチモーダル事前学習による推論ラベルの監督なしに自然言語推論問題を解くことを提案する。
本稿では,Multimodal Aligned Contrastive Decoupled Learning(MACD)ネットワークを提案する。
MACDは、分離されたテキストエンコーダに、コントラスト学習による視覚情報を表現するよう強制する。
- 参考スコア(独自算出の注目度): 15.352212663999099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to solve the natural language inference problem without any
supervision from the inference labels via task-agnostic multimodal pretraining.
Although recent studies of multimodal self-supervised learning also represent
the linguistic and visual context, their encoders for different modalities are
coupled. Thus they cannot incorporate visual information when encoding plain
text alone. In this paper, we propose Multimodal Aligned Contrastive Decoupled
learning (MACD) network. MACD forces the decoupled text encoder to represent
the visual information via contrastive learning. Therefore, it embeds visual
knowledge even for plain text inference. We conducted comprehensive experiments
over plain text inference datasets (i.e. SNLI and STS-B). The unsupervised MACD
even outperforms the fully-supervised BiLSTM and BiLSTM+ELMO on STS-B.
- Abstract(参考訳): 本稿では,タスク非依存型マルチモーダル事前学習による推論ラベルの監督なしに自然言語推論問題を解くことを提案する。
近年の多モーダル自己教師型学習の研究も言語的・視覚的文脈を表現しているが、異なるモダリティのためのエンコーダが結合されている。
そのため、平文だけでは視覚情報を組み込むことはできない。
本稿では,Multimodal Aligned Contrastive Decoupled Learning(MACD)ネットワークを提案する。
macdは、分離されたテキストエンコーダに、コントラスト学習を通じて視覚情報を表現させる。
そのため、平文推論においても視覚的知識を組み込む。
テキスト推論データセット(SNLI,STS-B)について総合的な実験を行った。
教師なしMACDはSTS-BのBiLSTMとBiLSTM+ELMOよりも優れています。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation [92.75908003533736]
本稿では,自己教師型入力表現を用いたフレームワークレベルの頑健なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-04-16T16:19:47Z) - Semi-Supervised Bilingual Lexicon Induction with Two-way Interaction [19.99658962367335]
教師付き信号と教師なしアライメントの相互作用を促進するための,新しい半教師付きBLIフレームワークを提案する。
MUSEおよびVecMapデータセットの実験結果から,我々のモデルに大きな改善が得られた。
論文 参考訳(メタデータ) (2020-10-14T13:59:07Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。