Fugu-MT 論文翻訳(概要): InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining

論文の概要: InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining

arxiv url: http://arxiv.org/abs/2003.13198v4
Date: Thu, 22 Apr 2021 11:20:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 06:32:22.992683
Title: InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining
Title（参考訳）: interbert:マルチモーダルプリトレーニングのための視覚と言語インタラクション
Authors: Junyang Lin, An Yang, Yichang Zhang, Jie Liu, Jingren Zhou, Hongxia Yang
Abstract要約: 我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
参考スコア（独自算出の注目度）: 76.32065400614162
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal pretraining for learning high-level multi-modal representation is a further step towards deep learning and artificial intelligence. In this work, we propose a novel model, namely InterBERT (BERT for Interaction), which is the first model of our series of multimodal pretraining methods M6 (MultiModality-to-MultiModality Multitask Mega-transformer). The model owns strong capability of modeling interaction between the information flows of different modalities. The single-stream interaction module is capable of effectively processing information of multiple modalilties, and the two-stream module on top preserves the independence of each modality to avoid performance downgrade in single-modal tasks. We pretrain the model with three pretraining tasks, including masked segment modeling (MSM), masked region modeling (MRM) and image-text matching (ITM); and finetune the model on a series of vision-and-language downstream tasks. Experimental results demonstrate that InterBERT outperforms a series of strong baselines, including the most recent multi-modal pretraining methods, and the analysis shows that MSM and MRM are effective for pretraining and our method can achieve performances comparable to BERT in single-modal tasks. Besides, we propose a large-scale dataset for multi-modal pretraining in Chinese, and we develop the Chinese InterBERT which is the first Chinese multi-modal pretrained model. We pretrain the Chinese InterBERT on our proposed dataset of 3.1M image-text pairs from the mobile Taobao, the largest Chinese e-commerce platform. We finetune the model for text-based image retrieval, and recently we deployed the model online for topic-based recommendation.
Abstract（参考訳）: 高レベルのマルチモーダル表現を学習するためのマルチモーダル事前訓練は、ディープラーニングと人工知能へのさらなるステップである。本研究では,マルチモーダルプリトレーニング法m6 (multimodality-to-multimodality multitask mega-transformer) の最初のモデルであるinterbert (bert for interaction)を提案する。モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。シングルストリームインタラクションモジュールは、複数のモジュールの情報を効果的に処理することができ、上位の2ストリームモジュールは、各モードの独立性を保ち、単一モードタスクのパフォーマンス低下を回避する。我々は、マスク付きセグメントモデリング(MSM)、マスク付き領域モデリング(MRM)、画像テキストマッチング(ITM)の3つの事前訓練タスクでモデルを事前訓練し、一連の視覚/言語下流タスクでモデルを微調整する。実験の結果、InterBERTは、最新のマルチモーダル事前学習手法を含む、一連の強力なベースラインより優れており、MSMとMRMは事前訓練に有効であり、本手法は単一モーダルタスクにおいてBERTに匹敵する性能を達成可能であることが示された。また,中国語のマルチモーダルプリトレーニングのための大規模データセットを提案し,中国初のマルチモーダルプリトレーニングモデルである中国語インターバートを開発した。我々は、中国最大のeコマースプラットフォームであるTaobaoから、提案した310万の画像テキストペアのデータセットに基づいて、中国インターバートを事前訓練する。テキストベース画像検索のモデルを微調整し,最近,トピックベースの推薦のためにモデルをオンラインに展開した。

関連論文リスト

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
S3: A Simple Strong Sample-effective Multimodal Dialog System [61.31055673156622]
本稿では,多モーダルダイアログタスクであるS3モデルに対して,概念的にシンプルだが強力なベースラインを提案する。このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
論文参考訳（メタデータ） (2024-06-26T12:45:43Z)
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。 UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文参考訳（メタデータ） (2023-10-01T12:35:18Z)
On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2023-05-02T07:15:10Z)
MoMo: A shared encoder Model for text, image and multi-Modal representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文参考訳（メタデータ） (2023-04-11T22:26:10Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文参考訳（メタデータ） (2022-10-26T08:24:15Z)
Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文参考訳（メタデータ） (2021-08-20T08:01:28Z)
WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文参考訳（メタデータ） (2021-03-11T09:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。