論文の概要: DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations
- arxiv url: http://arxiv.org/abs/2203.02013v1
- Date: Thu, 3 Mar 2022 20:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 13:54:51.789342
- Title: DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations
- Title(参考訳): DIME:分散局所説明によるマルチモーダルモデルの微粒化解釈
- Authors: Yiwei Lyu, Paul Pu Liang, Zihao Deng, Ruslan Salakhutdinov,
Louis-Philippe Morency
- Abstract要約: 我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
- 参考スコア(独自算出の注目度): 119.1953397679783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability for a human to understand an Artificial Intelligence (AI) model's
decision-making process is critical in enabling stakeholders to visualize model
behavior, perform model debugging, promote trust in AI models, and assist in
collaborative human-AI decision-making. As a result, the research fields of
interpretable and explainable AI have gained traction within AI communities as
well as interdisciplinary scientists seeking to apply AI in their subject
areas. In this paper, we focus on advancing the state-of-the-art in
interpreting multimodal models - a class of machine learning methods that
tackle core challenges in representing and capturing interactions between
heterogeneous data sources such as images, text, audio, and time-series data.
Multimodal models have proliferated numerous real-world applications across
healthcare, robotics, multimedia, affective computing, and human-computer
interaction. By performing model disentanglement into unimodal contributions
(UC) and multimodal interactions (MI), our proposed approach, DIME, enables
accurate and fine-grained analysis of multimodal models while maintaining
generality across arbitrary modalities, model architectures, and tasks. Through
a comprehensive suite of experiments on both synthetic and real-world
multimodal tasks, we show that DIME generates accurate disentangled
explanations, helps users of multimodal models gain a deeper understanding of
model behavior, and presents a step towards debugging and improving these
models for real-world deployment. Code for our experiments can be found at
https://github.com/lvyiwei1/DIME.
- Abstract(参考訳): 人工知能(AI)モデルの意思決定プロセスを理解する能力は、ステークホルダーがモデルの振る舞いを視覚化し、モデルデバッギングを実行し、AIモデルの信頼を促進し、協調的な人間とAIの意思決定を支援するために重要である。
その結果、解釈可能で説明可能なAIの研究分野は、AIコミュニティと、AIを対象分野に適用しようとする学際的科学者の間で注目を集めている。
本稿では,画像,テキスト,音声,時系列データなどの異種データソース間のインタラクションを表現およびキャプチャする上で,機械学習手法のクラスである,マルチモーダルモデルの解釈における最先端の進歩に焦点を当てる。
マルチモーダルモデルは、医療、ロボティクス、マルチメディア、感情コンピューティング、人間とコンピュータの相互作用など、多くの現実世界の応用を拡大してきた。
ユニモーダル貢献 (uc) とマルチモーダルインタラクション (mi) のモデル分割を行うことで,提案手法であるdimeは,任意のモダリティ,モデルアーキテクチャ,タスク間の汎用性を維持しつつ,マルチモーダルモデルの高精度かつ細粒度な解析を可能にする。
合成および実世界のマルチモーダルタスクの包括的な実験を通じて、dimeは正確な不連続の説明を生成し、マルチモーダルモデルのユーザによるモデルの振る舞いのより深い理解を支援するとともに、実際のデプロイのためにこれらのモデルをデバッグおよび改善するためのステップを示す。
実験のコードはhttps://github.com/lvyiwei1/dimeで確認できます。
関連論文リスト
- COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models [14.130327598928778]
大規模言語モデル (LLMs) と階層型運動固有ベクトル量子化変分オートエンコーダ (VQ-VAEs) を提案する。
我々のフレームワークは、現実的で多様な協調的な人間-オブジェクト-ヒューマンインタラクションを生成し、最先端の手法より優れています。
我々の研究は、ロボット工学、グラフィックス、コンピュータビジョンなど、様々な領域における複雑な相互作用をモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2024-09-30T17:02:13Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - From Efficient Multimodal Models to World Models: A Survey [28.780451336834876]
マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。
このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
論文 参考訳(メタデータ) (2024-06-27T15:36:43Z) - Foundations of Multisensory Artificial Intelligence [32.56967614091527]
この論文は、多感覚AIの機械学習基盤を前進させることを目的としている。
第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。
第2部では、多くのモダリティやタスクを一般化する実用的なマルチモーダル基礎モデルの設計について検討する。
論文 参考訳(メタデータ) (2024-04-29T14:45:28Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - MONAL: Model Autophagy Analysis for Modeling Human-AI Interactions [11.972017738888825]
大規模モデルの自己消費説明のためのモデルオートファジー分析(MONAL)を提案する。
MONALは、人間とAIシステム間の交換における人為的な情報の抑制を解明するために、2つの異なる自己食ループを使用している。
生成したモデルのキャパシティを,情報作成者とディスセミネータの両方として評価する。
論文 参考訳(メタデータ) (2024-02-17T13:02:54Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。