論文の概要: Pixtral 12B
- arxiv url: http://arxiv.org/abs/2410.07073v1
- Date: Thu, 10 Oct 2024 17:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:37:20.505816
- Title: Pixtral 12B
- Title(参考訳): Pixtral 12B
- Authors: Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang,
- Abstract要約: 12ビリオンパラメータのマルチモーダル言語モデルであるPixtral-12Bを導入する。
Pixtral-12Bは、自然画像と文書の両方を理解するために訓練されている。
多くのオープンソースモデルとは異なり、Pixtralはそのサイズに対する最先端のテキストモデルでもある。
- 参考スコア(独自算出の注目度): 56.846241711483586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.
- Abstract(参考訳): 12ビリオンパラメトリック言語モデルであるPixtral-12Bを導入する。
Pixtral-12Bは、自然画像とドキュメントの両方を理解するために訓練されており、様々なマルチモーダルベンチマークで主要なパフォーマンスを達成し、多くの大きなモデルを上回っている。
多くのオープンソースモデルとは異なり、Pixtralはそのサイズに対して最先端のテキストモデルであり、マルチモーダルタスクにおいて優れた自然言語性能を損なうことはない。
Pixtralは、スクラッチから訓練された新しい視覚エンコーダを使用して、自然な解像度とアスペクト比で画像を取り込みます。
これにより、ユーザーは画像を処理するために使用されるトークンの数に柔軟性を持つことができる。
Pixtralはまた、128Kトークンの長いコンテキストウィンドウで、任意の数の画像を処理できる。
Pixtral 12Bは同様の大きさのオープンモデル(Llama-3.2 11B \&Qwen-2-VL 7B)を上回っている。
また、Llama-3.2 90Bのようなより大型のオープンモデルよりも7倍小さい。
さらに,実践シナリオにおける視覚言語モデル評価のためのオープンソースベンチマークMM-MT-Benchを寄贈し,マルチモーダルLLMの標準化評価プロトコルに関する詳細な分析とコードを提供する。
Pixtral-12BはApache 2.0ライセンスでリリースされている。
関連論文リスト
- From Unimodal to Multimodal: Scaling up Projectors to Align Modalities [16.733970553781887]
そこで本研究では,事前学習した凍結アンモダルエンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。
本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。
これには、潜在空間における意味的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなプロジェクタのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - On Speculative Decoding for Multimodal Large Language Models [11.245862832561176]
MLLM(Multimodal Large Language Models)による推論は,大規模な言語モデルのバックボーンのため遅い。
言語のみのモデルがLLaVA 7Bを用いて投機的復号化のための優れたドラフトモデルとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-13T00:02:36Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - Retrieval-Augmented Multimodal Language Modeling [176.9150885247416]
DALL-EやCM3のようなマルチモーダルモデルは、テキスト・ツー・イメージと画像・ツー・テキスト生成において顕著な進歩を遂げている。
ベースマルチモーダルモデルでは,検索者が外部メモリから取得した関連テキストや画像を参照することができる。
我々の生成したモデルであるRetrieval-Augmented CM3は、テキストと画像の両方を検索して生成できる最初のマルチモーダルモデルである。
論文 参考訳(メタデータ) (2022-11-22T20:26:44Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。