論文の概要: MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal
Contributions in Vision and Language Models & Tasks
- arxiv url: http://arxiv.org/abs/2212.08158v1
- Date: Thu, 15 Dec 2022 21:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:28:58.113393
- Title: MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal
Contributions in Vision and Language Models & Tasks
- Title(参考訳): MM-SHAP:視覚・言語モデル・タスクにおけるマルチモーダルコントリビューション計測のための性能診断基準
- Authors: Letitia Parcalabescu and Anette Frank
- Abstract要約: 視覚と言語モデル(VL)は、個々のモダリティにおける不正な指標を活用することで知られている。
単潮モデルを用いたVL課題において得られた精度の低下は、いわゆる単潮崩壊が起こることを示唆している。
MM-SHAPは、モデルがマルチモーダルタスクで個別のモダリティを使用する割合を定量化する、パフォーマンスに依存しないマルチモーダルスコアである。
- 参考スコア(独自算出の注目度): 20.902155496422417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision and language models (VL) are known to exploit unrobust indicators in
individual modalities (e.g., introduced by distributional biases), instead of
focusing on relevant information in each modality. A small drop in accuracy
obtained on a VL task with a unimodal model suggests that so-called unimodal
collapse occurred. But how to quantify the amount of unimodal collapse
reliably, at dataset and instance-level, to diagnose and combat unimodal
collapse in a targeted way? We present MM-SHAP, a performance-agnostic
multimodality score that quantifies the proportion by which a model uses
individual modalities in multimodal tasks. MM-SHAP is based on Shapley values
and will be applied in two ways: (1) to compare models for their degree of
multimodality, and (2) to measure the contribution of individual modalities for
a given task and dataset. Experiments with 6 VL models -- LXMERT, CLIP and four
ALBEF variants -- on four VL tasks highlight that unimodal collapse can occur
to different degrees and in different directions, contradicting the wide-spread
assumption that unimodal collapse is one-sided. We recommend MM-SHAP for
analysing multimodal tasks, to diagnose and guide progress towards multimodal
integration. Code available at: https://github.com/Heidelberg-NLP/MM-SHAP
- Abstract(参考訳): 視覚と言語モデル(VL)は、個々のモダリティ(例えば、分布バイアスによって導入された)における不正な指標を活用することで知られており、各モダリティにおける関連する情報に焦点を当てている。
単潮モデルを用いたVL課題において得られた精度の低下は、いわゆる単潮崩壊が起こることを示唆している。
しかし、データセットとインスタンスレベルで、ユニモーダル崩壊の量を確実に定量化し、ターゲットとする方法でユニモーダル崩壊を診断し、対処するにはどうすればよいのか?
本研究では,マルチモーダルタスクにおいてモデルが個々のモダリティを使用する割合を定量化する,パフォーマンス非依存なマルチモーダリティスコアmm-shapを提案する。
MM-SHAPはShapley値に基づいており,(1)マルチモーダルの度合いのモデルを比較すること,(2)与えられたタスクやデータセットに対する個々のモダリティの寄与を測定すること,の2つの方法で適用される。
6つのVLモデル(LXMERT、CLIP、ALBEFの4つの変種)による4つのVLタスクの実験では、単調崩壊は異なる方向と異なる方向で起こり得ることが示され、単調崩壊は片側にあるという広い範囲の仮定に反している。
マルチモーダルタスクの分析や,マルチモーダル統合の進展の診断・指導にMM-SHAPを推奨する。
コード提供: https://github.com/heidelberg-nlp/mm-shap
関連論文リスト
- Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z) - MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-09-25T13:16:57Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and
Toolkit [0.0]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:26:28Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。