論文の概要: MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal
Contributions in Vision and Language Models & Tasks
- arxiv url: http://arxiv.org/abs/2212.08158v2
- Date: Tue, 23 May 2023 12:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 00:53:40.089765
- Title: MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal
Contributions in Vision and Language Models & Tasks
- Title(参考訳): MM-SHAP:視覚・言語モデル・タスクにおけるマルチモーダルコントリビューション計測のための性能診断基準
- Authors: Letitia Parcalabescu and Anette Frank
- Abstract要約: 視覚と言語モデルは、各モダリティにおける関連情報に焦点をあてるのではなく、個々のモダリティにおける不正な指標を利用する。
MM-SHAPは,シェープリー値に基づく性能非依存のマルチモーダリティスコアである。
- 参考スコア(独自算出の注目度): 20.902155496422417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision and language models (VL) are known to exploit unrobust indicators in
individual modalities (e.g., introduced by distributional biases) instead of
focusing on relevant information in each modality. That a unimodal model
achieves similar accuracy on a VL task to a multimodal one, indicates that
so-called unimodal collapse occurred. However, accuracy-based tests fail to
detect e.g., when the model prediction is wrong, while the model used relevant
information from a modality. Instead, we propose MM-SHAP, a
performance-agnostic multimodality score based on Shapley values that reliably
quantifies in which proportions a multimodal model uses individual modalities.
We apply MM-SHAP in two ways: (1) to compare models for their average degree of
multimodality, and (2) to measure for individual models the contribution of
individual modalities for different tasks and datasets. Experiments with six VL
models -- LXMERT, CLIP and four ALBEF variants -- on four VL tasks highlight
that unimodal collapse can occur to different degrees and in different
directions, contradicting the wide-spread assumption that unimodal collapse is
one-sided. Based on our results, we recommend MM-SHAP for analysing multimodal
tasks, to diagnose and guide progress towards multimodal integration. Code
available at \url{https://github.com/Heidelberg-NLP/MM-SHAP}.
- Abstract(参考訳): 視覚と言語モデル(VL)は、個々のモダリティ(例えば、分布バイアスによって導入された)において、各モダリティの関連情報に焦点をあてるのではなく、不正な指標を利用することが知られている。
ユニモーダルモデルがVLタスクとマルチモーダルタスクの類似の精度を達成したことは、いわゆるユニモーダル崩壊が起こったことを示している。
しかし、精度に基づくテストは、例えば、モデル予測が間違っている場合など、検出に失敗し、モデルでは、モダリティから関連する情報を使用する。
代わりに,マルチモーダルモデルの比例が個々のモダリティを使用するシャプリー値に基づく,パフォーマンス非依存なマルチモーダリティスコアmm-shapを提案する。
MM-SHAPは,(1)平均的マルチモーダリティのモデルを比較すること,(2)個々のモデルに対して異なるタスクやデータセットに対する個々のモダリティの寄与を測定すること,の2つの方法に適用する。
6つのVLモデル(LXMERT、CLIP、ALBEFの4つの変種)による4つのVLタスクの実験では、単調崩壊は異なる方向と異なる方向で起こり得ることが示され、単調崩壊は片側にあるという広い範囲の仮定に反している。
この結果に基づき,マルチモーダルタスクの分析,診断とマルチモーダル統合に向けた進展の導出を行うMM-SHAPを推奨する。
コードは \url{https://github.com/heidelberg-nlp/mm-shap}。
関連論文リスト
- Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models [34.802736332993994]
我々は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。
我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。
論文 参考訳(メタデータ) (2024-03-28T01:05:06Z) - MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-09-25T13:16:57Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and Toolkit [6.187270874122921]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:26:28Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。