論文の概要: Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning
- arxiv url: http://arxiv.org/abs/2401.17186v1
- Date: Tue, 30 Jan 2024 17:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:08:42.572671
- Title: Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning
- Title(参考訳): 連続言語学習によるCLIPにおける言語インクルーシティと多様性の受容
- Authors: Bang Yang, Yong Dai, Xuxin Cheng, Yaowei Li, Asif Raza, Yuexian Zou
- Abstract要約: 視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
- 参考スコア(独自算出の注目度): 58.92843729869586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vision-language pre-trained models (VL-PTMs) have advanced multimodal
research in recent years, their mastery in a few languages like English
restricts their applicability in broader communities. To this end, there is an
increasing interest in developing multilingual VL models via a joint-learning
setup, which, however, could be unrealistic due to expensive costs and data
availability. In this work, we propose to extend VL-PTMs' language capacity by
continual language learning (CLL), where a model needs to update its linguistic
knowledge incrementally without suffering from catastrophic forgetting (CF). We
begin our study by introducing a model dubbed CLL-CLIP, which builds upon CLIP,
a prevailing VL-PTM that has acquired image-English text alignment.
Specifically, CLL-CLIP contains an expandable token embedding layer to handle
linguistic differences. It solely trains token embeddings to improve memory
stability and is optimized under cross-modal and cross-lingual objectives to
learn the alignment between images and multilingual texts. To alleviate CF
raised by covariate shift and lexical overlap, we further propose a novel
approach that ensures the identical distribution of all token embeddings during
initialization and regularizes token embedding learning during training. We
construct a CLL benchmark covering 36 languages based on MSCOCO and XM3600
datasets and then evaluate multilingual image-text retrieval performance.
Extensive experiments verify the effectiveness of CLL-CLIP and show that our
approach can boost CLL-CLIP, e.g., by 6.7% in text-to-image average Recall@1 on
XM3600, and improve various state-of-the-art methods consistently. Our code and
data are available at \url{https://github.com/yangbang18/CLFM}.
- Abstract(参考訳): 近年、視覚言語事前学習モデル (VL-PTM) は多モーダルな研究が進んでいるが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
この目的のために、ジョイントラーニングによる多言語VLモデル開発への関心が高まっているが、コストとデータ可用性のために非現実的になる可能性がある。
本研究では,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
CLL-CLIPは、画像と英語のテキストのアライメントを獲得したVL-PTMであるCLIPをベースにしたモデルである。
具体的には、CLL-CLIPは言語的差異を処理するために拡張可能なトークン埋め込み層を含んでいる。
メモリ安定性を向上させるためにトークン埋め込みをトレーニングし、画像と多言語テキストのアライメントを学ぶために、クロスモーダルとクロスランガルの目的の下で最適化されている。
さらに,共変量シフトと語彙重なりによるCFの増大を緩和するために,初期化時のトークン埋め込みの同一分布を保証し,トレーニング中のトークン埋め込み学習を規則化する手法を提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
大規模な実験によりCLL-CLIPの有効性が検証され,CLL-CLIP,例えばXM3600上でのテキスト対画像平均Recall@1が6.7%向上し,さまざまな最先端手法が一貫した改善が得られた。
私たちのコードとデータは、 \url{https://github.com/yangbang18/clfm}で利用可能です。
関連論文リスト
- Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer [5.355430735475281]
本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。
評価の結果,非英語のプロンプトにおけるコード品質の相違が明らかとなった。
本稿では,ニューラルプロジェクション手法を用いたゼロショット言語間アプローチを提案する。
論文 参考訳(メタデータ) (2024-08-19T05:11:46Z) - Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。
本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。
ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-04-17T10:56:06Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Parameter-Efficient Cross-lingual Transfer of Vision and Language Models
via Translation-based Alignment [31.885608173448368]
CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。
異なる言語間のパフォーマンスの格差は、不均一なリソース可用性のために観測されている。
翻訳に基づくアライメント手法を用いて,多言語差を緩和するパラメータ効率のよい多言語間移動学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-02T14:09:02Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - A Multilingual Modeling Method for Span-Extraction Reading Comprehension [2.4905424368103444]
XLRCと呼ばれる多言語抽出読解手法を提案する。
我々のモデルはCMRC 2018タスクにおいて最先端のベースライン(RoBERTa_Large)よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-31T11:05:30Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。