論文の概要: Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information
- arxiv url: http://arxiv.org/abs/2211.09807v2
- Date: Mon, 21 Nov 2022 17:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 14:50:54.607876
- Title: Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information
- Title(参考訳): マルチモーダル相互情報最大化によるオールインワン事前学習に向けて
- Authors: Weijie Su, Xizhou Zhu, Chenxin Tao, Lewei Lu, Bin Li, Gao Huang, Yu
Qiao, Xiaogang Wang, Jie Zhou, Jifeng Dai
- Abstract要約: マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 77.80071279597665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To effectively exploit the potential of large-scale models, various
pre-training strategies supported by massive data from different sources are
proposed, including supervised pre-training, weakly-supervised pre-training,
and self-supervised pre-training. It has been proved that combining multiple
pre-training strategies and data from various modalities/sources can greatly
boost the training of large-scale models. However, current works adopt a
multi-stage pre-training system, where the complex pipeline may increase the
uncertainty and instability of the pre-training. It is thus desirable that
these strategies can be integrated in a single-stage manner. In this paper, we
first propose a general multi-modal mutual information formula as a unified
optimization target and demonstrate that all existing approaches are special
cases of our framework. Under this unified perspective, we propose an
all-in-one single-stage pre-training approach, named Maximizing Multi-modal
Mutual Information Pre-training (M3I Pre-training). Our approach achieves
better performance than previous pre-training methods on various vision
benchmarks, including ImageNet classification, COCO object detection, LVIS
long-tailed object detection, and ADE20k semantic segmentation. Notably, we
successfully pre-train a billion-level parameter image backbone and achieve
state-of-the-art performance on various benchmarks. Code shall be released at
https://github.com/OpenGVLab/M3I-Pretraining.
- Abstract(参考訳): 大規模モデルの可能性を効果的に活用するために、教師付き事前訓練、弱教師付き事前訓練、自己教師付き事前訓練など、様々な情報源からの大量のデータによって支援される様々な事前訓練戦略を提案する。
複数の事前トレーニング戦略とさまざまなモダリティ/ソースからのデータを組み合わせることで、大規模モデルのトレーニングが大幅に向上することが証明されている。
しかし、現在の作業では、複雑なパイプラインによって事前訓練の不確実性と不安定性が増大する多段階事前訓練システムを採用している。
したがって、これらの戦略を単一段階の方法で統合することが望ましい。
本稿では,まず,統一最適化目標として汎用マルチモーダル相互情報公式を提案し,既存の手法はすべてフレームワークの特別な場合であることを実証する。
この統一的な視点の下で,マルチモーダル相互情報事前学習(m3i pre-training)の最大化という,オールインワンの単段事前学習手法を提案する。
提案手法は,イメージネット分類,COCOオブジェクト検出,LVISロングテールオブジェクト検出,ADE20kセマンティックセマンティックセマンティックセグメンテーションなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
特に,10億レベルのパラメータ画像バックボーンの事前トレーニングに成功し,様々なベンチマークで最先端のパフォーマンスを実現した。
コードはhttps://github.com/opengvlab/m3i-pretrainingでリリースする。
関連論文リスト
- Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。
次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。
このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文 参考訳(メタデータ) (2024-09-30T10:25:47Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition [10.36399200974439]
本稿では,マルチモーダルとマルチタスクによる教師なし事前学習と,翻訳に基づく教師付き中間学習を併用した新しい手法を提案する。
このような多段階的なアプローチが,Librispeech と SUPERB のベースラインを最大38.45%上回る相対単語誤り率 (WER) の向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-03-28T20:23:39Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。