論文の概要: AltCLIP: Altering the Language Encoder in CLIP for Extended Language
Capabilities
- arxiv url: http://arxiv.org/abs/2211.06679v1
- Date: Sat, 12 Nov 2022 14:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:32:08.879217
- Title: AltCLIP: Altering the Language Encoder in CLIP for Extended Language
Capabilities
- Title(参考訳): AltCLIP: CLIPにおける拡張言語機能のための言語エンコーダの変更
- Authors: Zhongzhi Chen, Guang Liu, Bo-Wen Zhang, Fulong Ye, Qinghong Yang,
Ledell Wu
- Abstract要約: 本稿では,強いバイリンガルなマルチモーダル表現モデルを訓練する,概念的にシンプルで効果的な方法を提案する。
教師の学習と対照的な学習からなる2段階の訓練スキーマにより,言語と画像表現を一致させる。
ほぼすべてのタスクにおいてCLIPで非常に近いパフォーマンスを得ることができ、多言語理解などの拡張機能のためにCLIPのテキストエンコーダを変更できることを示唆している。
- 参考スコア(独自算出の注目度): 2.0132555487303923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a conceptually simple and effective method to train
a strong bilingual multimodal representation model. Starting from the
pretrained multimodal representation model CLIP released by OpenAI, we switched
its text encoder with a pretrained multilingual text encoder XLM-R, and aligned
both languages and image representations by a two-stage training schema
consisting of teacher learning and contrastive learning. We validate our method
through evaluations of a wide range of tasks. We set new state-of-the-art
performances on a bunch of tasks including ImageNet-CN, Flicker30k- CN, and
COCO-CN. Further, we obtain very close performances with CLIP on almost all
tasks, suggesting that one can simply alter the text encoder in CLIP for
extended capabilities such as multilingual understanding. Our models and code
are available at https://github.com/FlagAI-Open/FlagAI.
- Abstract(参考訳): 本研究では,概念的に単純かつ効果的な二言語多モーダル表現モデルを訓練する手法を提案する。
openaiがリリースした事前学習されたマルチモーダル表現モデルクリップから始め、事前学習された多言語テキストエンコーダxlm-rにテキストエンコーダを切り替え、教師の学習とコントラスト学習からなる2段階のトレーニングスキーマで言語とイメージの表現をアレンジした。
我々は,幅広いタスクの評価を通じて本手法を検証する。
私たちはImageNet-CN、Flicker30k-CN、COCO-CNなどのタスクに最先端のパフォーマンスを設定しました。
さらに、ほぼ全てのタスクにおいてCLIPで非常に近いパフォーマンスを得ることができ、多言語理解などの拡張機能のためにCLIPのテキストエンコーダを変更できることが示唆された。
私たちのモデルとコードはhttps://github.com/FlagAI-Open/FlagAIで利用可能です。
関連論文リスト
- LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。
LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。
提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
視覚エンコーダとマルチモーダル大言語モデル(MLLM)の整合性に着目した既存手法
そこで本研究では,テキストガイダンスを用いて視覚的トークンアライメントを言語レベルで促進する新しい手法であるParrotを紹介する。
本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。