論文の概要: Explaining latent representations of generative models with large
multimodal models
- arxiv url: http://arxiv.org/abs/2402.01858v1
- Date: Fri, 2 Feb 2024 19:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:52:09.213966
- Title: Explaining latent representations of generative models with large
multimodal models
- Title(参考訳): 大規模マルチモーダルモデルを用いた生成モデルの潜在表現
- Authors: Mengdan Zhu, Zhenke Liu, Bo Pan, Abhinav Angirekula, Liang Zhao
- Abstract要約: データ生成潜在因子の解釈可能な表現を学習することは、人工知能の発展にとって重要なトピックである。
本稿では,大規模マルチモーダルモデルを用いて,生成モデルにおける各潜在因子を包括的に説明する枠組みを提案する。
- 参考スコア(独自算出の注目度): 6.427214952260913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning interpretable representations of data generative latent factors is
an important topic for the development of artificial intelligence. With the
rise of the large multimodal model, it can align images with text to generate
answers. In this work, we propose a framework to comprehensively explain each
latent factor in the generative models using a large multimodal model. We
further measure the uncertainty of our generated explanations, quantitatively
evaluate the performance of explanation generation among multiple large
multimodal models, and qualitatively visualize the variations of each latent
factor to learn the disentanglement effects of different generative models on
explanations. Finally, we discuss the explanatory capabilities and limitations
of state-of-the-art large multimodal models.
- Abstract(参考訳): データ生成的潜在要因の理解可能な表現の学習は、人工知能の開発において重要なトピックである。
大規模なマルチモーダルモデルの台頭により、画像とテキストをアライメントして回答を生成することができる。
本研究では,大規模マルチモーダルモデルを用いて生成モデルの各潜在因子を包括的に説明するためのフレームワークを提案する。
さらに、生成した説明の不確実性を測定し、複数の大規模マルチモーダルモデル間の説明生成性能を定量的に評価し、各潜在因子の変動を定性的に可視化し、異なる生成モデルが説明に絡み合う影響を学習する。
最後に,最先端の大規模マルチモーダルモデルの説明能力と限界について述べる。
関連論文リスト
- Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - A survey of multimodal deep generative models [20.717591403306287]
マルチモーダル学習は、様々なタイプのモダリティに基づいて予測を行うモデルを構築するためのフレームワークである。
ディープニューラルネットワークによって分布がパラメータ化されるディープジェネレーティブモデルが注目されている。
論文 参考訳(メタデータ) (2022-07-05T15:48:51Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Learning Structured Latent Factors from Dependent Data:A Generative
Model Framework from Information-Theoretic Perspective [18.88255368184596]
本稿では,潜在空間における様々な基盤構造を持つ生成モデル学習のための新しいフレームワークを提案する。
我々のモデルは、様々なタイプの望まれる構造を反映した意味論的に意味のある潜在因子の集合を学習するための原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2020-07-21T06:59:29Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。