論文の概要: Contrastive Language-Image Pre-training for the Italian Language
- arxiv url: http://arxiv.org/abs/2108.08688v1
- Date: Thu, 19 Aug 2021 13:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:45:34.938537
- Title: Contrastive Language-Image Pre-training for the Italian Language
- Title(参考訳): コントラスト言語画像によるイタリア語の事前学習
- Authors: Federico Bianchi, Giuseppe Attanasio, Raphael Pisoni, Silvia Terragni,
Gabriele Sarti, Sri Lakshmi
- Abstract要約: イタリア語(CLIP-Italian)における最初のCLIPモデルについて述べる。
その結果,CLIP-Italianは画像検索やゼロショット分類のタスクにおいて,多言語CLIPモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 4.804798944613199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP (Contrastive Language-Image Pre-training) is a very recent multi-modal
model that jointly learns representations of images and texts. The model is
trained on a massive amount of English data and shows impressive performance on
zero-shot classification tasks. Training the same model on a different language
is not trivial, since data in other languages might be not enough and the model
needs high-quality translations of the texts to guarantee a good performance.
In this paper, we present the first CLIP model for the Italian Language
(CLIP-Italian), trained on more than 1.4 million image-text pairs. Results show
that CLIP-Italian outperforms the multilingual CLIP model on the tasks of image
retrieval and zero-shot classification.
- Abstract(参考訳): CLIP(Contrastive Language- Image Pre-training)は、画像とテキストの表現を共同で学習する、非常に最近のマルチモーダルモデルである。
このモデルは、大量の英語データに基づいてトレーニングされ、ゼロショット分類タスクで印象的なパフォーマンスを示す。
異なる言語で同じモデルをトレーニングするのは簡単ではない。他の言語のデータでは不十分であり、優れたパフォーマンスを保証するために高品質なテキスト翻訳が必要であるからだ。
本稿では,140万以上の画像テキストペアで学習したイタリア語(CLIP-Italian)の最初のCLIPモデルを提案する。
その結果,CLIP-Italianは画像検索やゼロショット分類のタスクにおいて多言語CLIPモデルよりも優れていた。
関連論文リスト
- CroissantLLM: A Truly Bilingual French-English Language Model [28.283282923849402]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across
Languages [77.81064876413055]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language
Representations [83.96551676836776]
Babel-ImageNetは、92の言語に1000のImageNetラベルを部分的に翻訳する、非常に多言語なベンチマークである。
92のBabel-ImageNet言語に対して,ゼロショット画像分類 (ZS-IC) を用いた8種類の多言語CLIPモデルの評価を行った。
Babel-ImageNetにおけるモデルZS-ICの性能は,画像テキスト検索の性能と高い相関性を示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。