Fugu-MT 論文翻訳(概要): Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework

論文の概要: Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework

arxiv url: http://arxiv.org/abs/2302.12247v5
Date: Sun, 10 Dec 2023 19:54:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 22:55:33.744190
Title: Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework
Title（参考訳）: マルチモーダルインタラクションの定量化とモデル化:情報分解フレームワーク
Authors: Paul Pu Liang, Yun Cheng, Xiang Fan, Chun Kai Ling, Suzanne Nie, Richard Chen, Zihao Deng, Nicholas Allen, Randy Auerbach, Faisal Mahmood, Ruslan Salakhutdinov, Louis-Philippe Morency
Abstract要約: 本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。 PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
参考スコア（独自算出の注目度）: 89.8609061423685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent explosion of interest in multimodal applications has resulted in a wide selection of datasets and methods for representing and integrating information from different modalities. Despite these empirical advances, there remain fundamental research questions: How can we quantify the interactions that are necessary to solve a multimodal task? Subsequently, what are the most suitable multimodal models to capture these interactions? To answer these questions, we propose an information-theoretic approach to quantify the degree of redundancy, uniqueness, and synergy relating input modalities with an output task. We term these three measures as the PID statistics of a multimodal distribution (or PID for short), and introduce two new estimators for these PID statistics that scale to high-dimensional distributions. To validate PID estimation, we conduct extensive experiments on both synthetic datasets where the PID is known and on large-scale multimodal benchmarks where PID estimations are compared with human annotations. Finally, we demonstrate their usefulness in (1) quantifying interactions within multimodal datasets, (2) quantifying interactions captured by multimodal models, (3) principled approaches for model selection, and (4) three real-world case studies engaging with domain experts in pathology, mood prediction, and robotic perception where our framework helps to recommend strong multimodal models for each application.
Abstract（参考訳）: 近年のマルチモーダルアプリケーションへの関心の高まりにより、様々なモダリティから情報を表現・統合するためのデータセットや手法が広く選択された。これらの経験的な進歩にもかかわらず、基礎的な研究の疑問が残る: マルチモーダルなタスクを解決するのに必要な相互作用をどのように定量化できるか? その後、これらの相互作用を捉えるのに最も適したマルチモーダルモデルは何ですか? これらの質問に答えるために,入力モダリティと出力タスクを関連付ける冗長性,特異性,相乗効果の程度を定量化する情報理論的手法を提案する。これら3つの測度をマルチモーダル分布(略してPID)のPID統計と呼び、高次元分布にスケールするこれらのPID統計に対する2つの新しい推定値を導入する。 PID推定を検証するために、PIDが知られている合成データセットと、PID推定を人間のアノテーションと比較する大規模マルチモーダルベンチマークの両方で広範な実験を行う。最後に,(1)マルチモーダルデータセット内のインタラクションの定量化,(2)マルチモーダルモデルでキャプチャされたインタラクションの定量化,(3)モデル選択のための原則的アプローチ,(4)病理学,ムード予測,ロボット知覚における3つの実世界のケーススタディにおいて有用性を示す。

関連論文リスト

Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images [58.553448128258566]
本稿では,大規模高品質データと能力向上手法の二重ギャップを橋渡しする。我々は、64Kの高品質なマルチモーダル命令サンプルからなるデータセットSTAR-64Kを導入し、5つのオープンソースMLLMに対して実験を行う。
論文参考訳（メタデータ） (2025-10-22T02:23:40Z)
Multi-modal Bayesian Neural Network Surrogates with Conjugate Last-Layer Estimation [0.30586855806896046]
我々は、2つのマルチモーダルニューラルネットワークサロゲートモデルを開発し、最終層における条件共役分布を利用してモデルパラメータを推定する。我々は,スカラーデータと時系列データの両方に対する一様サロゲートモデルと比較して,予測精度と不確実性が改善されたことを示す。
論文参考訳（メタデータ） (2025-09-26T00:13:57Z)
MultiSHAP: A Shapley-Based Framework for Explaining Cross-Modal Interactions in Multimodal AI Models [5.011371514152517]
マルチモーダルAIモデルは、視覚や言語など、複数のモーダルからの情報の統合を必要とするタスクにおいて、目覚ましいパフォーマンスを達成した。マルチモーダルAIモデルにおけるクロスモーダルインタラクションを説明するには、依然として大きな課題である。
論文参考訳（メタデータ） (2025-08-01T12:19:18Z)
Efficient Quantification of Multimodal Interaction at Sample Level [12.373485315058513]
本稿では,軽量サンプル・ワイド・マルチモーダル・インタラクション (LSMI) 推定器について紹介する。我々はまず、この最も分解可能な相互作用を定量化するために、適切なポイントワイズ情報尺度を用いて冗長性推定フレームワークを開発する。そこで本研究では,効率的なエントロピー推定手法を提案する。
論文参考訳（メタデータ） (2025-06-08T02:39:25Z)
HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文参考訳（メタデータ） (2024-07-03T18:00:48Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。この地域の既存の研究は、大規模に監督されたデータに大きく依存している。マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文参考訳（メタデータ） (2022-11-12T08:10:35Z)
Generalized Product-of-Experts for Learning Multimodal Representations in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文参考訳（メタデータ） (2022-11-07T14:27:38Z)
SHAPE: An Unified Approach to Evaluate the Contribution and Cooperation of Individual Modalities [7.9602600629569285]
我々は,bf SHapley vbf Alue-based bf PErceptual (SHAPE) スコアを用いて,個々のモダリティの限界寄与度とモダリティ間の協調度を測定する。我々の実験は、異なるモジュラリティが相補的なタスクに対して、マルチモーダルモデルは依然として支配的なモダリティのみを使用する傾向があることを示唆している。我々のスコアは、現在のマルチモーダルモデルが様々なモダリティでどのように動作するかを理解するのに役立ち、複数のモダリティを統合するためのより洗練された方法を促進することを願っている。
論文参考訳（メタデータ） (2022-04-30T16:35:40Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Self-Supervised Multimodal Domino: in Search of Biomarkers for Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文参考訳（メタデータ） (2020-12-25T20:28:13Z)
Relating by Contrasting: A Data-efficient Framework for Multimodal Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文参考訳（メタデータ） (2020-07-02T15:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。