論文の概要: SHAPE: An Unified Approach to Evaluate the Contribution and Cooperation
of Individual Modalities
- arxiv url: http://arxiv.org/abs/2205.00302v1
- Date: Sat, 30 Apr 2022 16:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 09:05:41.508370
- Title: SHAPE: An Unified Approach to Evaluate the Contribution and Cooperation
of Individual Modalities
- Title(参考訳): 形状:個人のモダリティの貢献と協力を評価するための統一的アプローチ
- Authors: Pengbo Hu, Xingyu Li, Yi Zhou
- Abstract要約: 我々は,bf SHapley vbf Alue-based bf PErceptual (SHAPE) スコアを用いて,個々のモダリティの限界寄与度とモダリティ間の協調度を測定する。
我々の実験は、異なるモジュラリティが相補的なタスクに対して、マルチモーダルモデルは依然として支配的なモダリティのみを使用する傾向があることを示唆している。
我々のスコアは、現在のマルチモーダルモデルが様々なモダリティでどのように動作するかを理解するのに役立ち、複数のモダリティを統合するためのより洗練された方法を促進することを願っている。
- 参考スコア(独自算出の注目度): 7.9602600629569285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep learning advances, there is an ever-growing demand for models capable
of synthesizing information from multi-modal resources to address the complex
tasks raised from real-life applications. Recently, many large multi-modal
datasets have been collected, on which researchers actively explore different
methods of fusing multi-modal information. However, little attention has been
paid to quantifying the contribution of different modalities within the
proposed models. In this paper, we propose the {\bf SH}apley v{\bf A}lue-based
{\bf PE}rceptual (SHAPE) scores that measure the marginal contribution of
individual modalities and the degree of cooperation across modalities. Using
these scores, we systematically evaluate different fusion methods on different
multi-modal datasets for different tasks. Our experiments suggest that for some
tasks where different modalities are complementary, the multi-modal models
still tend to use the dominant modality alone and ignore the cooperation across
modalities. On the other hand, models learn to exploit cross-modal cooperation
when different modalities are indispensable for the task. In this case, the
scores indicate it is better to fuse different modalities at relatively early
stages. We hope our scores can help improve the understanding of how the
present multi-modal models operate on different modalities and encourage more
sophisticated methods of integrating multiple modalities.
- Abstract(参考訳): ディープラーニングが進むにつれて、マルチモーダルリソースから情報を合成して、現実のアプリケーションから引き起こされる複雑なタスクに対処できるモデルに対する需要がますます高まっている。
近年、多くの大規模マルチモーダルデータセットが収集され、研究者は様々なマルチモーダル情報を利用する方法を積極的に探究している。
しかし,提案モデルの異なるモダリティの寄与を定量化するためにはほとんど注意が払われていない。
本稿では,個々のモダリティの限界寄与度とモダリティ間の協調度を計測する「bf sh}apley v{\bf a}lue-based {\bf pe}rceptual (shape) score」を提案する。
これらのスコアを用いて、異なるタスクに対して異なるマルチモーダルデータセット上で異なる融合手法を体系的に評価する。
実験により,異なるモダリティが相補的であるタスクでは,マルチモダリティモデルは依然として支配的モダリティのみを使用し,モダリティ間の協調を無視する傾向が示唆された。
一方で、異なるモダリティがタスクに不可欠である場合、モデルはクロスモーダル協調を利用するように学習する。
この場合、スコアは比較的早い段階で異なるモダリティを融合した方がよいことを示している。
我々のスコアは、現在のマルチモーダルモデルが様々なモダリティでどのように動作するかを理解するのに役立つことを願っている。
関連論文リスト
- Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation [11.664945091814904]
サンプルレベルで各モードの寄与を評価するために, 微粒なモーダリティ評価指標を導入する。
我々は、この問題を分析し、低貢献率の差別能力を高めることにより、モダリティ間の協調を改善する。
論文 参考訳(メタデータ) (2023-09-12T14:16:34Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - IMF: Interactive Multimodal Fusion Model for Link Prediction [13.766345726697404]
異なるモダリティからの知識を統合するために,インタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。
提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。
論文 参考訳(メタデータ) (2023-03-20T01:20:02Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。