Fugu-MT 論文翻訳(概要): Explaining latent representations of generative models with large multimodal models

論文の概要: Explaining latent representations of generative models with large multimodal models

arxiv url: http://arxiv.org/abs/2402.01858v1
Date: Fri, 2 Feb 2024 19:28:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 23:52:09.213966
Title: Explaining latent representations of generative models with large multimodal models
Title（参考訳）: 大規模マルチモーダルモデルを用いた生成モデルの潜在表現
Authors: Mengdan Zhu, Zhenke Liu, Bo Pan, Abhinav Angirekula, Liang Zhao
Abstract要約: データ生成潜在因子の解釈可能な表現を学習することは、人工知能の発展にとって重要なトピックである。本稿では,大規模マルチモーダルモデルを用いて,生成モデルにおける各潜在因子を包括的に説明する枠組みを提案する。
参考スコア（独自算出の注目度）: 6.427214952260913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning interpretable representations of data generative latent factors is an important topic for the development of artificial intelligence. With the rise of the large multimodal model, it can align images with text to generate answers. In this work, we propose a framework to comprehensively explain each latent factor in the generative models using a large multimodal model. We further measure the uncertainty of our generated explanations, quantitatively evaluate the performance of explanation generation among multiple large multimodal models, and qualitatively visualize the variations of each latent factor to learn the disentanglement effects of different generative models on explanations. Finally, we discuss the explanatory capabilities and limitations of state-of-the-art large multimodal models.
Abstract（参考訳）: データ生成的潜在要因の理解可能な表現の学習は、人工知能の開発において重要なトピックである。大規模なマルチモーダルモデルの台頭により、画像とテキストをアライメントして回答を生成することができる。本研究では,大規模マルチモーダルモデルを用いて生成モデルの各潜在因子を包括的に説明するためのフレームワークを提案する。さらに、生成した説明の不確実性を測定し、複数の大規模マルチモーダルモデル間の説明生成性能を定量的に評価し、各潜在因子の変動を定性的に可視化し、異なる生成モデルが説明に絡み合う影響を学習する。最後に,最先端の大規模マルチモーダルモデルの説明能力と限界について述べる。

関連論文リスト

Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文参考訳（メタデータ） (2024-09-30T01:38:26Z)
Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond [48.43910061720815]
マルチモーダル生成AIは、学術と産業の両方で注目を集めている。理解と生成の両方に統一されたモデルを持つことは可能か?
論文参考訳（メタデータ） (2024-09-23T13:16:09Z)
Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文参考訳（メタデータ） (2024-07-24T18:04:17Z)
LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multi-modal Foundation Models [4.675123839851372]
textitLatentExplainerは、深層生成モデルにおける潜伏変数の意味論的意味のある説明を自動的に生成するフレームワークである。我々のアプローチは潜伏変数を摂動させ、生成されたデータの変化を解釈し、マルチモーダルな大言語モデル(MLLM)を用いて人間の理解可能な説明を生成する。
論文参考訳（メタデータ） (2024-06-21T04:39:03Z)
Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文参考訳（メタデータ） (2024-04-03T10:11:22Z)
Revealing Multimodal Contrastive Representation Learning through Latent Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。本研究では,データログ類似度を厳密に近似できる変動目標について考察する。我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文参考訳（メタデータ） (2023-09-01T10:32:21Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
A survey of multimodal deep generative models [20.717591403306287]
マルチモーダル学習は、様々なタイプのモダリティに基づいて予測を行うモデルを構築するためのフレームワークである。ディープニューラルネットワークによって分布がパラメータ化されるディープジェネレーティブモデルが注目されている。
論文参考訳（メタデータ） (2022-07-05T15:48:51Z)
Model-agnostic multi-objective approach for the evolutionary discovery of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文参考訳（メタデータ） (2021-07-07T11:17:09Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
Relating by Contrasting: A Data-efficient Framework for Multimodal Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文参考訳（メタデータ） (2020-07-02T15:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。