論文の概要: Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning
- arxiv url: http://arxiv.org/abs/2405.12217v2
- Date: Mon, 14 Oct 2024 23:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:49.960593
- Title: Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning
- Title(参考訳): 分散シフトへの大規模マルチモーダルモデルの適用--インコンテキスト学習の役割
- Authors: Guanglin Zhou, Zhongyi Han, Shiming Chen, Biwei Huang, Liming Zhu, Salman Khan, Xin Gao, Lina Yao,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は汎用アシスタントとして機能し、異なる分布に対して非常に堅牢である。
それにもかかわらず、特に医療のような専門分野において、ドメイン固有の適応は依然として必要である。
本研究は,LMMの適応性向上のための効果的な代替手段として,文脈内学習(ICL)について検討する。
- 参考スコア(独自算出の注目度): 41.59855801010565
- License:
- Abstract: Recent studies indicate that large multimodal models (LMMs) potentially act as general-purpose assistants and are highly robust against different distributions. Despite this, domain-specific adaptation is still necessary particularly in specialized areas like healthcare. Due to the impracticality of fine-tuning LMMs given their vast parameter space, this work investigates in-context learning (ICL) as an effective alternative for enhancing LMMs' adaptability. Our study addresses this by evaluating an unsupervised ICL method which selects in-context examples through a nearest example search based on feature similarity. We uncover that its effectiveness is limited by the deficiencies of pre-trained vision encoders under distribution shift scenarios. To address these challenges, we propose InvariantSelectPR, a novel method leveraging Class-conditioned Contrastive Invariance (CCI) for more robust demonstration selection. Specifically, CCI enhances pre-trained vision encoders by improving their discriminative capabilities across different classes and ensuring invariance to domain-specific variations. This enhancement allows the encoders to effectively identify and retrieve the most informative examples, which are then used to guide LMMs in adapting to new query samples under varying distributions. Our experiments show that InvariantSelectPR substantially improves the adaptability of LMMs, achieving significant performance gains on benchmark datasets, with a 34.2%$\uparrow$ accuracy increase in 7-shot on Camelyon17 and 16.9%$\uparrow$ increase in 7-shot on HAM10000 compared to the baseline zero-shot performance.
- Abstract(参考訳): 近年の研究では、大規模マルチモーダルモデル(LMM)が汎用アシスタントとして機能し、異なる分布に対して非常に堅牢であることが示されている。
それにもかかわらず、特に医療のような専門分野において、ドメイン固有の適応は依然として必要である。
膨大なパラメータ空間を与えられた微調整LMMの非現実性のため、本研究はLMMの適応性を高める効果的な代替手段として、文脈内学習(ICL)について検討する。
本研究は,特徴類似性に基づく最寄りの例検索により,文脈内サンプルを選択する教師なしのICL法を評価することで,この問題に対処する。
分散シフトシナリオ下では、事前学習された視覚エンコーダの欠陥により、その効果が制限されることが判明した。
これらの課題に対処するために,より堅牢なデモ選択のためのクラス条件付きコントラスト不変性(CCI)を利用した新しい手法であるInvariantSelectPRを提案する。
具体的には、CCIは、異なるクラスにわたる識別能力を改善し、ドメイン固有のバリエーションへの不変性を確保することで、事前訓練された視覚エンコーダを強化する。
この拡張により、エンコーダは最も情報に富んだ例を効果的に識別し、検索し、異なる分布の下で新しいクエリサンプルに適応するためにLMMをガイドするために使用される。
実験の結果,InvariantSelectPRはLMMの適応性を大幅に向上し,ベンチマークデータセット上での大幅な性能向上を実現し,キャメリオン17では34.2%$\uparrow$精度が,HAM10000では16.9%$\uparrow$精度が向上した。
関連論文リスト
- Multi-scale Contrastive Adaptor Learning for Segmenting Anything in Underperformed Scenes [12.36950265154199]
本稿では, MCA-SAM という新しいマルチスケールコントラスト適応学習手法を提案する。
MCA-SAMはトークンレベルとサンプルレベルの両方で、巧妙に設計された対照的な学習フレームワークを通じて、アダプタのパフォーマンスを向上させる。
MCA-SAMは新しいベンチマークを設定し、既存の手法を3つの挑戦的な領域で上回る結果が得られた。
論文 参考訳(メタデータ) (2024-08-12T06:23:10Z) - Contrastive Learning Via Equivariant Representation [19.112460889771423]
CLeVERは,任意の複雑性の増大戦略に適合する,新しい異種コントラスト学習フレームワークである。
実験結果から,CLeVERは実用自然画像から同変情報を効果的に抽出し,組み込んだ。
論文 参考訳(メタデータ) (2024-06-01T01:53:51Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Learning Optimal Features via Partial Invariance [18.552839725370383]
不変リスク最小化(IRM)は、複数の環境から堅牢なモデルを学ぶことを目的とした一般的なフレームワークである。
IRMが予測器を過度に抑制できることを示し、これを補うために、$textitpartial invariance$を介して緩和を提案する。
線形設定と、言語と画像データの両方のタスクにおけるディープニューラルネットワークの両方で実施されたいくつかの実験により、結論の検証が可能になった。
論文 参考訳(メタデータ) (2023-01-28T02:48:14Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。