論文の概要: Adapting Multi-modal Large Language Model to Concept Drift From Pre-training Onwards
- arxiv url: http://arxiv.org/abs/2405.13459v2
- Date: Thu, 10 Oct 2024 04:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:27.669895
- Title: Adapting Multi-modal Large Language Model to Concept Drift From Pre-training Onwards
- Title(参考訳): 事前学習からのコンセプトドリフトへのマルチモーダル大言語モデルの適用
- Authors: Xiaoyu Yang, Jie Lu, En Yu,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、実世界のストリーミングデータを扱う際に、コンセプトドリフトから問題に直面することが多い。
本稿では、段階的ドリフトと急激なドリフトに起因する重大なバイアスに対するビジョンランゲージモデル(VL)の感受性と脆弱性を明らかにする。
本稿では,概念ドリフト理論をマルチモーダル領域に拡張し,VLモデルの分布予測不可能な変化への適応性を向上する統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.97188816362991
- License:
- Abstract: Multi-modal Large Language Models (MLLMs) frequently face challenges from concept drift when dealing with real-world streaming data, wherein distributions change unpredictably. This mainly includes gradual drift due to long-tailed data and sudden drift from Out-Of-Distribution (OOD) data, both of which have increasingly drawn the attention of the research community. While these issues have been extensively studied in the individual domain of vision or language, their impacts on MLLMs in concept drift settings remain largely underexplored. In this paper, we reveal the susceptibility and vulnerability of Vision-Language (VL) models to significant biases arising from gradual drift and sudden drift, particularly in the pre-training. To effectively address these challenges, we propose a unified framework that extends concept drift theory to the multi-modal domain, enhancing the adaptability of the VL model to the distribution unpredictable changes. Additionally, a T-distribution based drift adapter is proposed to effectively mitigate the bias induced by the gradual drift, which also facilitates the model in distinguishing sudden distribution changes through explicit distribution modeling. Extensive experiments demonstrate our method enhances the efficiency and accuracy of image-text alignment in the pre-training of VL models, particularly in the concept drift scenario. Moreover, various downstream tasks exhibit significant improvements in our model's ability to adapt to long-tailed open world. Furthermore, we create a set of multi-modal datasets called OpenMMlo, specifically tailored for the long-tailed open world settings, to validate our findings. To foster the development of the multi-modal community, we have made both OpenMMlo datasets and our code publicly available at: https://github.com/Anonymous0Knight/ConceptDriftMLLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、実世界のストリーミングデータを扱う際に、概念のドリフトから生じる課題にしばしば直面する。
これは主に、長い尾を持つデータによる段階的なドリフトと、研究コミュニティの注目を集めているOF-Distribution(OOD)データからの突然ドリフトを含む。
これらの問題は、視覚や言語の各領域で広く研究されているが、概念的ドリフト設定におけるMLLMへの影響は、大半は未解明のままである。
本稿では、特に事前学習において、段階的ドリフトと急激なドリフトに起因する重大なバイアスに対するビジョン・ランゲージモデル(VL)の感受性と脆弱性を明らかにする。
これらの課題を効果的に解決するために、概念ドリフト理論をマルチモーダル領域に拡張し、VLモデルの分布予測不能な変化への適応性を向上する統合フレームワークを提案する。
さらに,T分布に基づくドリフトアダプタを提案し,段階的ドリフトによるバイアスを効果的に軽減し,明示的な分布モデルによる突発的な分布変化の識別を容易にする。
広汎な実験により,VLモデルの事前学習における画像テキストアライメントの効率と精度,特にコンセプトドリフトシナリオにおいて向上することが示された。
さらに、様々な下流タスクは、長い尾を持つオープンワールドに適応する我々のモデルの能力に顕著な改善をもたらす。
さらに、長い尾のオープンワールド設定に適したOpenMMloと呼ばれるマルチモーダルデータセットを作成し、その結果を検証する。
マルチモーダルコミュニティの開発を促進するため、OpenMMloデータセットとコードの両方を、https://github.com/Anonymous0Knight/ConceptDriftMLLMsで公開しました。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Evolving Multi-Scale Normalization for Time Series Forecasting under Distribution Shifts [20.02869280775877]
本稿では,分散シフト問題に対処するモデル非依存型マルチスケール正規化(EvoMSN)フレームワークを提案する。
ベンチマークデータセット上での5つの主流予測手法の性能向上におけるEvoMSNの有効性を評価する。
論文 参考訳(メタデータ) (2024-09-29T14:26:22Z) - FFHFlow: A Flow-based Variational Approach for Multi-fingered Grasp Synthesis in Real Time [19.308304984645684]
正規化フロー(NF)に基づくDGM(Deep Generative Model)の利用を提案する。
我々はまず,不完全点雲上に条件付きグリップ分布を学習するために,単一条件NF(cNFs)を直接適用することにより,多様性の向上を推し進めた。
これにより、我々は新しいフローベースd Deep Latent Variable Model (DLVM)を開発する動機となった。
変分オートエンコーダ(VAE)とは異なり、提案するDLVMは2つのcNFを事前分布と可能性分布に利用することにより、典型的な落とし穴に対処する。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - MemDA: Forecasting Urban Time Series with Memory-based Drift Adaptation [24.284969264008733]
本稿では,データの周期性を考慮してドリフトを符号化するコンセプトドリフト問題に対する新しい都市時系列予測モデルを提案する。
我々の設計は最先端の手法よりも優れており、既存の予測バックボーンに十分に一般化することができる。
論文 参考訳(メタデータ) (2023-09-25T15:22:28Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Distributional Drift Adaptation with Temporal Conditional Variational Autoencoder for Multivariate Time Series Forecasting [41.206310481507565]
本稿では,時間経過に伴う動的分布依存をモデル化するための時間的条件変動自動符号化(TCVAE)を提案する。
TCVAEは、依存関係を時間的条件分布として推論し、潜伏変数を活用する。
現状のMTS予測ベースラインに対して,TCVAEの強靭性と有効性を示す。
論文 参考訳(メタデータ) (2022-09-01T10:06:22Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。