論文の概要: Understanding Multimodal LLMs Under Distribution Shifts: An Information-Theoretic Approach
- arxiv url: http://arxiv.org/abs/2502.00577v1
- Date: Sat, 01 Feb 2025 22:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:54.851616
- Title: Understanding Multimodal LLMs Under Distribution Shifts: An Information-Theoretic Approach
- Title(参考訳): 分散シフト下におけるマルチモーダルLLMの理解:情報理論的アプローチ
- Authors: Changdae Oh, Zhen Fang, Shawn Im, Xuefeng Du, Yixuan Li,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は期待できる能力を示しているが、分散シフトの下では苦労している。
MLLMの安全性と信頼性を確保するためには,MLLMのリスクを特徴づけ定量化できる形式的枠組みの確立が必要であると論じる。
- 参考スコア(独自算出の注目度): 33.463823493423554
- License:
- Abstract: Multimodal large language models (MLLMs) have shown promising capabilities but struggle under distribution shifts, where evaluation data differ from instruction tuning distributions. Although previous works have provided empirical evaluations, we argue that establishing a formal framework that can characterize and quantify the risk of MLLMs is necessary to ensure the safe and reliable application of MLLMs in the real world. By taking an information-theoretic perspective, we propose the first theoretical framework that enables the quantification of the maximum risk of MLLMs under distribution shifts. Central to our framework is the introduction of Effective Mutual Information (EMI), a principled metric that quantifies the relevance between input queries and model responses. We derive an upper bound for the EMI difference between in-distribution (ID) and out-of-distribution (OOD) data, connecting it to visual and textual distributional discrepancies. Extensive experiments on real benchmark datasets, spanning 61 shift scenarios empirically validate our theoretical insights.
- Abstract(参考訳): マルチモーダルな大規模言語モデル (MLLM) は有望な能力を示しているが, 評価データと指導調律分布との相違点である分布シフトに苦慮している。
これまでの研究では,MLLMの安全性と信頼性を確保するためには,MLLMのリスクを評価・定量化できる形式的枠組みの確立が必要であると論じている。
本稿では,情報理論の観点からMLLMの最大リスクの定量化を可能にする最初の理論的枠組みを提案する。
私たちのフレームワークの中心となるのは、入力クエリとモデル応答の関連性を定量化する原則付きメトリックであるEffective Mutual Information (EMI)の導入です。
In-distriion (ID) と Out-of-distriion (OOD) の EMI 差の上限を導出し,それを視覚的およびテキスト的分布の相違に接続する。
61のシフトシナリオにまたがる、実際のベンチマークデータセットに関する大規模な実験は、私たちの理論的洞察を実証的に検証します。
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - A Semiparametric Approach to Causal Inference [2.092897805817524]
因果推論において、重要な問題は介入や治療の効果を定量化することである。
本稿では, 半パラメトリック密度比モデル(DRM)を用いて, 対物分布の特徴付けを行う。
我々のモデルは、対物分布に関する厳密なパラメトリック仮定を避けることで柔軟性を提供する。
論文 参考訳(メタデータ) (2024-11-01T18:03:38Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference [0.9898607871253774]
本稿では,大規模言語モデル(LLM)の振る舞いを説明する新しいベイズ学習モデルを提案する。
我々は,先行した多項遷移確率行列で表される理想的な生成テキストモデルに基づく理論的枠組みを開発し,LLMがこの行列をどのように近似するかを検討する。
論文 参考訳(メタデータ) (2024-02-05T16:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。