Fugu-MT 論文翻訳(概要): mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs

論文の概要: mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs

arxiv url: http://arxiv.org/abs/2307.06930v2
Date: Mon, 2 Oct 2023 11:58:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 13:42:52.710546
Title: mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs
Title（参考訳）: mBLIP:多言語ビジョンLLMの効率的なブートストラップ
Authors: Gregor Geigle, Abhay Jain, Radu Timofte, Goran Glava\v{s}
Abstract要約: 我々は、コンシューマハードウェア上で、数百万のトレーニング例を使用して、最初の多言語ビジョン-LLMであるmBLIPを提示する。我々は視覚と言語を混合したタスクから多言語データを活用し、機械翻訳による高品質な英語データを95言語に翻訳する。 IGLUEベンチマークでは、mBLIPは最先端のモデルと競合する結果を得る。
参考スコア（独自算出の注目度）: 57.56695651370155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modular vision-language models (Vision-LLMs) align pretrained image encoders with frozen large language models (LLMs), representing a computationally much more efficient alternative to end-to-end training of large vision-language models from scratch, which is prohibitively expensive for most researchers and practitioners. Vision-LLMs instead post-hoc condition LLMs to `understand' the output of an image encoder. With the abundance of readily available high-quality English image-text data as well as monolingual English LLMs, the research focus has been on English-only Vision-LLMs. Multilingual vision-language models are still predominantly obtained via expensive end-to-end pretraining, resulting in comparatively smaller models, trained on limited multilingual image data supplemented with text-only multilingual corpora. In this work, we present mBLIP, the first multilingual Vision-LLM, which we obtain in a computationally efficient manner -- on consumer hardware and using only a few million training examples -- by leveraging a pretrained multilingual LLM. To this end, we \textit{re-align} an image encoder previously tuned to an English LLM to a new, multilingual LLM -- for this, we leverage multilingual data from a mix of vision-and-language tasks, which we obtain by machine-translating high-quality English data to 95 languages. On the IGLUE benchmark, mBLIP yields results competitive with state-of-the-art models. Moreover, in image captioning on XM3600, mBLIP (zero-shot) even outperforms PaLI-X (a model with 55B parameters). Compared to these very large multilingual vision-language models trained from scratch, we obtain mBLIP by training orders of magnitude fewer parameters on magnitudes less data. We release our model and code at \url{https://github.com/gregor-ge/mBLIP}.
Abstract（参考訳）: モジュラービジョン言語モデル (vision-llms) は、事前学習された画像エンコーダを凍結した大型言語モデル (llm) と整合させる。 vision-llms 代わりに post-hoc condition llms はイメージエンコーダの出力を 'understand' する。高品質な英語画像テキストデータとモノリンガルな英語LLMが豊富にあるため、研究は英語のみのビジョンLLMに焦点が当てられている。テキストのみの多言語コーパスを補足した限られた多言語画像データに基づいて訓練された比較的小さなモデルが得られる。本研究は,コンシューマハードウェア上で,数百万のトレーニング例を用いて計算的に効率よく得られる最初の多言語ビジョン-LLMであるmBLIPについて,事前学習した多言語LLMを活用して紹介する。この目的のために、我々は、以前英語のLLMにチューニングされた画像エンコーダを、新しい多言語LLMに変換し、視覚と言語を混在するタスクから多言語データを活用し、高品質の英語データを95言語に機械翻訳することで得られる。 IGLUEベンチマークでは、mBLIPは最先端のモデルと競合する結果を得る。さらに、XM3600の画像キャプションでは、mBLIP(ゼロショット)はPaLI-X(55Bパラメータのモデル)よりも優れています。スクラッチから訓練したこれらの非常に大きな多言語視覚言語モデルと比較して、大小データのパラメータを桁違いに減らしてmBLIPを得る。私たちはモデルとコードを \url{https://github.com/gregor-ge/mBLIP} でリリースします。

関連論文リスト

Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models [17.444066202370397]
言語間移動により、視覚言語モデルは1つの言語でのみトレーニングデータを用いて様々な言語で視覚タスクを実行することができる。現在のアプローチは、大規模で訓練済みの多言語言語モデルに依存している。本稿では,事前学習したVLM Florence-2と大規模言語モデルGemma-2を組み合わせた,0.4Bから11.2Bの単一言語エンコーダVLMであるFlorenzを提案する。
論文参考訳（メタデータ） (2025-03-12T14:41:10Z)
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-20T18:59:59Z)
Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文参考訳（メタデータ） (2024-12-05T16:48:16Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文参考訳（メタデータ） (2024-06-13T00:13:32Z)
An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。 LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文参考訳（メタデータ） (2024-05-21T16:35:02Z)
Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。 LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文参考訳（メタデータ） (2024-03-11T01:04:36Z)
Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文参考訳（メタデータ） (2024-01-30T17:14:05Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks [38.05496300873095]
ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。 X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
論文参考訳（メタデータ） (2022-11-22T16:48:01Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。