論文の概要: DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations
- arxiv url: http://arxiv.org/abs/2203.02013v1
- Date: Thu, 3 Mar 2022 20:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 13:54:51.789342
- Title: DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations
- Title(参考訳): DIME:分散局所説明によるマルチモーダルモデルの微粒化解釈
- Authors: Yiwei Lyu, Paul Pu Liang, Zihao Deng, Ruslan Salakhutdinov,
Louis-Philippe Morency
- Abstract要約: 我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
- 参考スコア(独自算出の注目度): 119.1953397679783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability for a human to understand an Artificial Intelligence (AI) model's
decision-making process is critical in enabling stakeholders to visualize model
behavior, perform model debugging, promote trust in AI models, and assist in
collaborative human-AI decision-making. As a result, the research fields of
interpretable and explainable AI have gained traction within AI communities as
well as interdisciplinary scientists seeking to apply AI in their subject
areas. In this paper, we focus on advancing the state-of-the-art in
interpreting multimodal models - a class of machine learning methods that
tackle core challenges in representing and capturing interactions between
heterogeneous data sources such as images, text, audio, and time-series data.
Multimodal models have proliferated numerous real-world applications across
healthcare, robotics, multimedia, affective computing, and human-computer
interaction. By performing model disentanglement into unimodal contributions
(UC) and multimodal interactions (MI), our proposed approach, DIME, enables
accurate and fine-grained analysis of multimodal models while maintaining
generality across arbitrary modalities, model architectures, and tasks. Through
a comprehensive suite of experiments on both synthetic and real-world
multimodal tasks, we show that DIME generates accurate disentangled
explanations, helps users of multimodal models gain a deeper understanding of
model behavior, and presents a step towards debugging and improving these
models for real-world deployment. Code for our experiments can be found at
https://github.com/lvyiwei1/DIME.
- Abstract(参考訳): 人工知能(AI)モデルの意思決定プロセスを理解する能力は、ステークホルダーがモデルの振る舞いを視覚化し、モデルデバッギングを実行し、AIモデルの信頼を促進し、協調的な人間とAIの意思決定を支援するために重要である。
その結果、解釈可能で説明可能なAIの研究分野は、AIコミュニティと、AIを対象分野に適用しようとする学際的科学者の間で注目を集めている。
本稿では,画像,テキスト,音声,時系列データなどの異種データソース間のインタラクションを表現およびキャプチャする上で,機械学習手法のクラスである,マルチモーダルモデルの解釈における最先端の進歩に焦点を当てる。
マルチモーダルモデルは、医療、ロボティクス、マルチメディア、感情コンピューティング、人間とコンピュータの相互作用など、多くの現実世界の応用を拡大してきた。
ユニモーダル貢献 (uc) とマルチモーダルインタラクション (mi) のモデル分割を行うことで,提案手法であるdimeは,任意のモダリティ,モデルアーキテクチャ,タスク間の汎用性を維持しつつ,マルチモーダルモデルの高精度かつ細粒度な解析を可能にする。
合成および実世界のマルチモーダルタスクの包括的な実験を通じて、dimeは正確な不連続の説明を生成し、マルチモーダルモデルのユーザによるモデルの振る舞いのより深い理解を支援するとともに、実際のデプロイのためにこれらのモデルをデバッグおよび改善するためのステップを示す。
実験のコードはhttps://github.com/lvyiwei1/dimeで確認できます。
関連論文リスト
- Human-AI Interactions in the Communication Era: Autophagy Makes Large
Models Achieving Local Optima [11.972017738888825]
本研究では,人間と大規模モデルがコミュニケーションにおいて重要なリンクとして使用される際のバイアスと嗜好について検討する。
我々の主な発見は、合成された情報は、人為的な情報よりも、モデルトレーニングデータセットやメッセージングに組み込まれる可能性が高い点である。
本稿では,人間とAIシステム間の情報交換における人為的な情報の抑制を考慮に入れた,自己消費ループの現実的な2つのモデルを提案する。
論文 参考訳(メタデータ) (2024-02-17T13:02:54Z) - An Interactive Agent Foundation Model [50.50659114031731]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - M2Lens: Visualizing and Explaining Multimodal Models for Sentiment
Analysis [28.958168542624062]
感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。
M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。
論文 参考訳(メタデータ) (2021-07-17T15:54:27Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z) - MHVAE: a Human-Inspired Deep Hierarchical Generative Model for
Multimodal Representation Learning [8.70928211339504]
表現学習のための階層型マルチモーダル生成モデルであるMHVAE(Multimodal Hierarchical Vari Auto-Encoder)をコントリビュートする。
人間の認知モデルにインスパイアされたMHVAEは、モダリティ固有の分布と、モダリティ間の推論に責任を持つ共同モダリティ分布を学習することができる。
本モデルは,任意の入力モダリティと相互モダリティ推定による共同モダリティ再構成に関する他の最先端生成モデルと同等に機能する。
論文 参考訳(メタデータ) (2020-06-04T16:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。