論文の概要: Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information
- arxiv url: http://arxiv.org/abs/2211.09807v2
- Date: Mon, 21 Nov 2022 17:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 14:50:54.607876
- Title: Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information
- Title(参考訳): マルチモーダル相互情報最大化によるオールインワン事前学習に向けて
- Authors: Weijie Su, Xizhou Zhu, Chenxin Tao, Lewei Lu, Bin Li, Gao Huang, Yu
Qiao, Xiaogang Wang, Jie Zhou, Jifeng Dai
- Abstract要約: マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 77.80071279597665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To effectively exploit the potential of large-scale models, various
pre-training strategies supported by massive data from different sources are
proposed, including supervised pre-training, weakly-supervised pre-training,
and self-supervised pre-training. It has been proved that combining multiple
pre-training strategies and data from various modalities/sources can greatly
boost the training of large-scale models. However, current works adopt a
multi-stage pre-training system, where the complex pipeline may increase the
uncertainty and instability of the pre-training. It is thus desirable that
these strategies can be integrated in a single-stage manner. In this paper, we
first propose a general multi-modal mutual information formula as a unified
optimization target and demonstrate that all existing approaches are special
cases of our framework. Under this unified perspective, we propose an
all-in-one single-stage pre-training approach, named Maximizing Multi-modal
Mutual Information Pre-training (M3I Pre-training). Our approach achieves
better performance than previous pre-training methods on various vision
benchmarks, including ImageNet classification, COCO object detection, LVIS
long-tailed object detection, and ADE20k semantic segmentation. Notably, we
successfully pre-train a billion-level parameter image backbone and achieve
state-of-the-art performance on various benchmarks. Code shall be released at
https://github.com/OpenGVLab/M3I-Pretraining.
- Abstract(参考訳): 大規模モデルの可能性を効果的に活用するために、教師付き事前訓練、弱教師付き事前訓練、自己教師付き事前訓練など、様々な情報源からの大量のデータによって支援される様々な事前訓練戦略を提案する。
複数の事前トレーニング戦略とさまざまなモダリティ/ソースからのデータを組み合わせることで、大規模モデルのトレーニングが大幅に向上することが証明されている。
しかし、現在の作業では、複雑なパイプラインによって事前訓練の不確実性と不安定性が増大する多段階事前訓練システムを採用している。
したがって、これらの戦略を単一段階の方法で統合することが望ましい。
本稿では,まず,統一最適化目標として汎用マルチモーダル相互情報公式を提案し,既存の手法はすべてフレームワークの特別な場合であることを実証する。
この統一的な視点の下で,マルチモーダル相互情報事前学習(m3i pre-training)の最大化という,オールインワンの単段事前学習手法を提案する。
提案手法は,イメージネット分類,COCOオブジェクト検出,LVISロングテールオブジェクト検出,ADE20kセマンティックセマンティックセマンティックセグメンテーションなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
特に,10億レベルのパラメータ画像バックボーンの事前トレーニングに成功し,様々なベンチマークで最先端のパフォーマンスを実現した。
コードはhttps://github.com/opengvlab/m3i-pretrainingでリリースする。
関連論文リスト
- When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Multiple Physics Pretraining for Physical Surrogate Models [42.19323262199993]
物理代理モデルのための自己回帰型タスク非依存型事前学習手法である多重物理事前学習(MPP)を導入する。
我々は,幅広い流体力学のベンチマークを用いて,事前学習と下流作業に対するアプローチの有効性を検証した。
下流タスクでは、MPPを訓練したモデルを微調整することで、新しい物理の複数の時間ステップでより正確な予測が可能になることを実証する。
論文 参考訳(メタデータ) (2023-10-04T17:29:19Z) - AlignDet: Aligning Pre-training and Fine-tuning in Object Detection [38.256555424079664]
AlignDetは統合された事前トレーニングフレームワークで、様々な既存の検出器に適応して、相違を緩和することができる。
検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコル間で大幅な改善が達成できる。
論文 参考訳(メタデータ) (2023-07-20T17:55:14Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment
Analysis [25.482853330324748]
近年,マルチモーダル・アスペクトベース感性分析 (MABSA) が注目されている。
i) クロスモーダルアライメントを無視した事前学習された視覚モデルとテキストモデル、または(ii) 一般的な事前学習タスクで事前訓練された視覚的なきめ細やかなモデルのいずれかを使用する。
我々は,MABSA(MABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-17T08:44:00Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。