論文の概要: Adapting Multi-modal Large Language Model to Concept Drift in the Long-tailed Open World
- arxiv url: http://arxiv.org/abs/2405.13459v1
- Date: Wed, 22 May 2024 09:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 00:45:23.005523
- Title: Adapting Multi-modal Large Language Model to Concept Drift in the Long-tailed Open World
- Title(参考訳): ロングテールオープンワールドにおけるマルチモーダル大言語モデルのコンセプトドリフトへの適応
- Authors: Xiaoyu Yang, Jie Lu, En Yu,
- Abstract要約: 実世界のデータは、しばしば極端な不均衡とアウト・オブ・ディストリビューション(OOD)のインスタンスを示し、モデルのトレーニングに大きく偏っている。
本稿では,尾のドリフトとアウト・オブ・ディストリビューション(OOD)ドリフトに起因する重大なバイアスに対する視覚言語モデルの感受性と脆弱性を最初に示す。
本稿では,T分布に基づくドリフトアダプタを提案する。
- 参考スコア(独自算出の注目度): 16.97188816362991
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world data often exhibit extreme imbalances and out-of-distribution (OOD) instances, which significantly biases the model training. While it has been extensively studied in vision and language domains separately, the impact of long-tailed open worlds on multi-modal large language models (MLLMs) has been largely overlooked. In this paper, we first demonstrate the susceptibility and vulnerability of vision-language models to significant biases caused by tail drift and out-of-distribution (OOD) drift during both the pre-training and fine-tuning stages. To eliminate the bias from different sources, we integrate the tailed drift adaptation and OOD drift detection into a unified framework by extending the concept drift theory to multi-modal. Specifically, a T-distribution-based drift adapter is proposed to effectively mitigate the bias induced by the long-tailed problem, which also facilitates the model in distinguishing OOD data through explicit distribution modelling. Extensive experiments show significant improvements in our model's ability to adapt to tailed drift and OOD drift. Moreover, it enhances the efficiency and accuracy of image-text alignment in vision language model pre-training, particularly in the long-tail open world scenario. Furthermore, we create a set of multi-modal datasets called OpenMMlo, specifically tailored for the long-tailed open world scenario, to validate our findings. To foster the development of the multi-modal community, we have made both OpenMMlo datasets and our code publicly available at: https://github.com/Anonymous0Knight/ConceptDriftMLLMs.
- Abstract(参考訳): 実世界のデータは、しばしば極端な不均衡とアウト・オブ・ディストリビューション(OOD)のインスタンスを示し、モデルのトレーニングに大きく偏っている。
視覚と言語領域で研究されているが、長い尾を持つオープンワールドがマルチモーダルな大言語モデル(MLLM)に与える影響は概ね見過ごされている。
本稿では、まず、事前学習と微調整の段階において、テールドリフトとアウト・オブ・ディストリビューション(OOD)ドリフトに起因する重大なバイアスに対する視覚言語モデルの感受性と脆弱性を実証する。
異なるソースからのバイアスを排除するため、我々は、尾行ドリフト適応とOODドリフト検出を統合フレームワークに統合し、概念ドリフト理論をマルチモーダルに拡張する。
具体的には、T分布に基づくドリフトアダプタを提案し、長い尾問題によって引き起こされるバイアスを効果的に軽減し、また、明示的な分布モデルによるOODデータの識別を容易にする。
広範囲な実験により,尾行ドリフトとOODドリフトに適応するモデルの能力は大幅に向上した。
さらに,視覚言語モデルの事前学習における画像テキストアライメントの効率性と精度を高める。
さらに、我々はOpenMMloと呼ばれる複数のモーダルデータセットを作成し、特に長い尾を持つオープンワールドのシナリオに特化して、我々の発見を検証する。
マルチモーダルコミュニティの開発を促進するため、OpenMMloデータセットとコードの両方を、https://github.com/Anonymous0Knight/ConceptDriftMLLMsで公開しました。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Evolving Multi-Scale Normalization for Time Series Forecasting under Distribution Shifts [20.02869280775877]
本稿では,分散シフト問題に対処するモデル非依存型マルチスケール正規化(EvoMSN)フレームワークを提案する。
ベンチマークデータセット上での5つの主流予測手法の性能向上におけるEvoMSNの有効性を評価する。
論文 参考訳(メタデータ) (2024-09-29T14:26:22Z) - FFHFlow: A Flow-based Variational Approach for Multi-fingered Grasp Synthesis in Real Time [19.308304984645684]
正規化フロー(NF)に基づくDGM(Deep Generative Model)の利用を提案する。
我々はまず,不完全点雲上に条件付きグリップ分布を学習するために,単一条件NF(cNFs)を直接適用することにより,多様性の向上を推し進めた。
これにより、我々は新しいフローベースd Deep Latent Variable Model (DLVM)を開発する動機となった。
変分オートエンコーダ(VAE)とは異なり、提案するDLVMは2つのcNFを事前分布と可能性分布に利用することにより、典型的な落とし穴に対処する。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - MemDA: Forecasting Urban Time Series with Memory-based Drift Adaptation [24.284969264008733]
本稿では,データの周期性を考慮してドリフトを符号化するコンセプトドリフト問題に対する新しい都市時系列予測モデルを提案する。
我々の設計は最先端の手法よりも優れており、既存の予測バックボーンに十分に一般化することができる。
論文 参考訳(メタデータ) (2023-09-25T15:22:28Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Distributional Drift Adaptation with Temporal Conditional Variational Autoencoder for Multivariate Time Series Forecasting [41.206310481507565]
本稿では,時間経過に伴う動的分布依存をモデル化するための時間的条件変動自動符号化(TCVAE)を提案する。
TCVAEは、依存関係を時間的条件分布として推論し、潜伏変数を活用する。
現状のMTS予測ベースラインに対して,TCVAEの強靭性と有効性を示す。
論文 参考訳(メタデータ) (2022-09-01T10:06:22Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。