論文の概要: M6: A Chinese Multimodal Pretrainer
- arxiv url: http://arxiv.org/abs/2103.00823v2
- Date: Tue, 2 Mar 2021 06:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 05:06:04.801837
- Title: M6: A Chinese Multimodal Pretrainer
- Title(参考訳): M6:中国のマルチモーダルプリトレーナー
- Authors: Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang,
Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou,
Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin
Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, Hongxia Yang
- Abstract要約: 1.9TB以上の画像と292GBのテキストからなる中国語のマルチモーダルプリトレーニングのための最大のデータセットを構築します。
我々はマルチモーダルなマルチモーダルなマルチタスク・メガトランスを参考に,M6と呼ばれるクロスモーダルな事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 66.51132343067458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we construct the largest dataset for multimodal pretraining in
Chinese, which consists of over 1.9TB images and 292GB texts that cover a wide
range of domains. We propose a cross-modal pretraining method called M6,
referring to Multi-Modality to Multi-Modality Multitask Mega-transformer, for
unified pretraining on the data of single modality and multiple modalities. We
scale the model size up to 10 billion and 100 billion parameters, and build the
largest pretrained model in Chinese. We apply the model to a series of
downstream applications, and demonstrate its outstanding performance in
comparison with strong baselines. Furthermore, we specifically design a
downstream task of text-guided image generation, and show that the finetuned M6
can create high-quality images with high resolution and abundant details.
- Abstract(参考訳): 本研究では、1.9TB以上の画像と292GBの幅広い領域をカバーするテキストからなる中国語のマルチモーダルプリトレーニングのための最大のデータセットを構築する。
本稿では,マルチモダリティとマルチモダリティ・マルチタスク・メガトランスフォーマのマルチモダリティに着目し,単一モダリティと複数モダリティのデータの統合プリトレーニングを行うm6というクロスモダリティプリトレーニング手法を提案する。
モデルのサイズを100億から1000億のパラメータに拡大し、中国で最大の事前訓練モデルを構築します。
このモデルを一連の下流アプリケーションに適用し、強力なベースラインと比較して優れた性能を発揮します。
さらに,テキスト誘導画像生成の下流タスクを特に設計し,精細なm6が高精細で精細な画像を生成することができることを示す。
関連論文リスト
- Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - EMMeTT: Efficient Multimodal Machine Translation Training [26.295981183965566]
自動音声翻訳(AST)を含む音声-LLMのマルチモーダル共同学習方式を提案する。
共同マルチモーダルトレーニングを扱うために,EMMeTTと呼ばれる新しいトレーニングフレームワークを提案する。
結果、多モーダル翻訳モデルでは、強いテキストと音声の翻訳結果を同時に生成する。
論文 参考訳(メタデータ) (2024-09-20T14:03:23Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale
Efficient Pretraining [26.262677587795242]
我々は、60億以上の画像テキストペアを持つ包括的バイリンガルデータセットBM-6Bを導入する。
このようなデータセットのスケールを扱うために,画像テキストのコントラッシブな損失計算のためのグループ集約手法を提案する。
BM-6B上での細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルの事前訓練を行う。
論文 参考訳(メタデータ) (2024-01-29T05:43:33Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。