論文の概要: On the Out-Of-Distribution Generalization of Multimodal Large Language
Models
- arxiv url: http://arxiv.org/abs/2402.06599v1
- Date: Fri, 9 Feb 2024 18:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 15:35:13.220763
- Title: On the Out-Of-Distribution Generalization of Multimodal Large Language
Models
- Title(参考訳): マルチモーダル大言語モデルの分散的一般化について
- Authors: Xingxuan Zhang, Jiansheng Li, Wenjing Chu, Junjia Hai, Renzhe Xu,
Yuqing Yang, Shikai Guan, Jiazheng Xu, and Peng Cui
- Abstract要約: MLLM(Multimodal Large Language Models)の一般化境界について検討する。
我々は、合成画像、実世界の分布シフト、医療画像や分子画像などの特殊なデータセットにまたがるゼロショットの一般化を評価した。
テキスト内学習はMLLMの一般化を著しく向上させ,一般化障壁を克服するための新たな道を開くことができることを示す。
- 参考スコア(独自算出の注目度): 24.431960338495184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the generalization boundaries of current Multimodal Large
Language Models (MLLMs) via comprehensive evaluation under out-of-distribution
scenarios and domain-specific tasks. We evaluate their zero-shot generalization
across synthetic images, real-world distributional shifts, and specialized
datasets like medical and molecular imagery. Empirical results indicate that
MLLMs struggle with generalization beyond common training domains, limiting
their direct application without adaptation. To understand the cause of
unreliable performance, we analyze three hypotheses: semantic
misinterpretation, visual feature extraction insufficiency, and mapping
deficiency. Results identify mapping deficiency as the primary hurdle. To
address this problem, we show that in-context learning (ICL) can significantly
enhance MLLMs' generalization, opening new avenues for overcoming
generalization barriers. We further explore the robustness of ICL under
distribution shifts and show its vulnerability to domain shifts, label shifts,
and spurious correlation shifts between in-context examples and test data.
- Abstract(参考訳): 本稿では,分散シナリオとドメイン固有タスクの包括的評価を通じて,現行のマルチモーダル大規模言語モデル(mllms)の一般化境界について検討する。
我々は、合成画像、実世界の分布シフト、医療や分子画像などの特殊なデータセットをまたいだゼロショット一般化を評価する。
実験結果から,MLLMは一般的な訓練領域を超えて一般化に苦慮し,適応なしに直接適用を制限していることが明らかとなった。
信頼できないパフォーマンスの原因を理解するために,意味的誤解釈,視覚的特徴抽出不全,マッピング不足の3つの仮説を分析した。
その結果,マッピング不足が主要なハードルであることがわかった。
この問題に対処するため、インコンテキスト学習(ICL)はMLLMの一般化を著しく向上させ、一般化障壁を克服するための新たな道を開くことができることを示す。
分散シフト下でのiclのロバスト性についてさらに検討し,その脆弱性をドメインシフト,ラベルシフト,およびコンテキスト内サンプルとテストデータとのスプリアス相関シフトに示す。
関連論文リスト
- On the Universal Truthfulness Hyperplane Inside LLMs [27.007142483859162]
モデル内の事実的正確かつ誤った出力を区別する普遍真性超平面が存在するかどうかを考察する。
その結果,トレーニングデータセットの多様性の向上が,すべてのシナリオのパフォーマンスを著しく向上させることが示唆された。
論文 参考訳(メタデータ) (2024-07-11T15:07:26Z) - Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - LLMs Understand Glass-Box Models, Discover Surprises, and Suggest
Repairs [10.222281712562705]
大規模言語モデル(LLM)は解釈可能なモデルを扱うのに非常に優れていることを示す。
推論に階層的なアプローチを採用することで、LLMは包括的なモデルレベルの要約を提供することができる。
パッケージ $textttTalkToEBM$ をオープンソース LLM-GAM インターフェースとして提示する。
論文 参考訳(メタデータ) (2023-08-02T13:59:35Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。