Fugu-MT 論文翻訳(概要): AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities

論文の概要: AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities

arxiv url: http://arxiv.org/abs/2211.06679v1
Date: Sat, 12 Nov 2022 14:48:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 17:32:08.879217
Title: AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities
Title（参考訳）: AltCLIP: CLIPにおける拡張言語機能のための言語エンコーダの変更
Authors: Zhongzhi Chen, Guang Liu, Bo-Wen Zhang, Fulong Ye, Qinghong Yang, Ledell Wu
Abstract要約: 本稿では,強いバイリンガルなマルチモーダル表現モデルを訓練する,概念的にシンプルで効果的な方法を提案する。教師の学習と対照的な学習からなる2段階の訓練スキーマにより,言語と画像表現を一致させる。ほぼすべてのタスクにおいてCLIPで非常に近いパフォーマンスを得ることができ、多言語理解などの拡張機能のためにCLIPのテキストエンコーダを変更できることを示唆している。
参考スコア（独自算出の注目度）: 2.0132555487303923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present a conceptually simple and effective method to train a strong bilingual multimodal representation model. Starting from the pretrained multimodal representation model CLIP released by OpenAI, we switched its text encoder with a pretrained multilingual text encoder XLM-R, and aligned both languages and image representations by a two-stage training schema consisting of teacher learning and contrastive learning. We validate our method through evaluations of a wide range of tasks. We set new state-of-the-art performances on a bunch of tasks including ImageNet-CN, Flicker30k- CN, and COCO-CN. Further, we obtain very close performances with CLIP on almost all tasks, suggesting that one can simply alter the text encoder in CLIP for extended capabilities such as multilingual understanding. Our models and code are available at https://github.com/FlagAI-Open/FlagAI.
Abstract（参考訳）: 本研究では,概念的に単純かつ効果的な二言語多モーダル表現モデルを訓練する手法を提案する。 openaiがリリースした事前学習されたマルチモーダル表現モデルクリップから始め、事前学習された多言語テキストエンコーダxlm-rにテキストエンコーダを切り替え、教師の学習とコントラスト学習からなる2段階のトレーニングスキーマで言語とイメージの表現をアレンジした。我々は,幅広いタスクの評価を通じて本手法を検証する。私たちはImageNet-CN、Flicker30k-CN、COCO-CNなどのタスクに最先端のパフォーマンスを設定しました。さらに、ほぼ全てのタスクにおいてCLIPで非常に近いパフォーマンスを得ることができ、多言語理解などの拡張機能のためにCLIPのテキストエンコーダを変更できることが示唆された。私たちのモデルとコードはhttps://github.com/FlagAI-Open/FlagAIで利用可能です。

関連論文リスト

Language-Image Alignment with Fixed Text Encoders [28.898689028197005]
現在、言語と画像のアライメントを確立するための最も支配的なアプローチは、テキストと画像エンコーダを共同で事前訓練することである。本研究では,事前学習した固定大言語モデル(LLM)が,視覚表現学習の指導に十分なテキストエンコーダを提供するかどうかを検討する。
論文参考訳（メタデータ） (2025-06-04T17:51:56Z)
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文参考訳（メタデータ） (2024-12-20T20:46:48Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。 LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
視覚エンコーダとマルチモーダル大言語モデル(MLLM)の整合性に着目した既存手法そこで本研究では,テキストガイダンスを用いて視覚的トークンアライメントを言語レベルで促進する新しい手法であるParrotを紹介する。本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。 LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文参考訳（メタデータ） (2024-05-21T16:35:02Z)
Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文参考訳（メタデータ） (2024-01-30T17:14:05Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文参考訳（メタデータ） (2022-12-15T18:52:08Z)
CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.59857372525664]
Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T23:35:18Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (2022-09-14T05:47:02Z)
Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文参考訳（メタデータ） (2022-05-25T10:53:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。