論文の概要: AltCLIP: Altering the Language Encoder in CLIP for Extended Language
Capabilities
- arxiv url: http://arxiv.org/abs/2211.06679v1
- Date: Sat, 12 Nov 2022 14:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:32:08.879217
- Title: AltCLIP: Altering the Language Encoder in CLIP for Extended Language
Capabilities
- Title(参考訳): AltCLIP: CLIPにおける拡張言語機能のための言語エンコーダの変更
- Authors: Zhongzhi Chen, Guang Liu, Bo-Wen Zhang, Fulong Ye, Qinghong Yang,
Ledell Wu
- Abstract要約: 本稿では,強いバイリンガルなマルチモーダル表現モデルを訓練する,概念的にシンプルで効果的な方法を提案する。
教師の学習と対照的な学習からなる2段階の訓練スキーマにより,言語と画像表現を一致させる。
ほぼすべてのタスクにおいてCLIPで非常に近いパフォーマンスを得ることができ、多言語理解などの拡張機能のためにCLIPのテキストエンコーダを変更できることを示唆している。
- 参考スコア(独自算出の注目度): 2.0132555487303923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a conceptually simple and effective method to train
a strong bilingual multimodal representation model. Starting from the
pretrained multimodal representation model CLIP released by OpenAI, we switched
its text encoder with a pretrained multilingual text encoder XLM-R, and aligned
both languages and image representations by a two-stage training schema
consisting of teacher learning and contrastive learning. We validate our method
through evaluations of a wide range of tasks. We set new state-of-the-art
performances on a bunch of tasks including ImageNet-CN, Flicker30k- CN, and
COCO-CN. Further, we obtain very close performances with CLIP on almost all
tasks, suggesting that one can simply alter the text encoder in CLIP for
extended capabilities such as multilingual understanding. Our models and code
are available at https://github.com/FlagAI-Open/FlagAI.
- Abstract(参考訳): 本研究では,概念的に単純かつ効果的な二言語多モーダル表現モデルを訓練する手法を提案する。
openaiがリリースした事前学習されたマルチモーダル表現モデルクリップから始め、事前学習された多言語テキストエンコーダxlm-rにテキストエンコーダを切り替え、教師の学習とコントラスト学習からなる2段階のトレーニングスキーマで言語とイメージの表現をアレンジした。
我々は,幅広いタスクの評価を通じて本手法を検証する。
私たちはImageNet-CN、Flicker30k-CN、COCO-CNなどのタスクに最先端のパフォーマンスを設定しました。
さらに、ほぼ全てのタスクにおいてCLIPで非常に近いパフォーマンスを得ることができ、多言語理解などの拡張機能のためにCLIPのテキストエンコーダを変更できることが示唆された。
私たちのモデルとコードはhttps://github.com/FlagAI-Open/FlagAIで利用可能です。
関連論文リスト
- Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.59857372525664]
Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。
本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T23:35:18Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。