論文の概要: Mutual Information Divergence: A Unified Metric for Multimodal
Generative Models
- arxiv url: http://arxiv.org/abs/2205.13445v1
- Date: Wed, 25 May 2022 09:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 15:00:43.343388
- Title: Mutual Information Divergence: A Unified Metric for Multimodal
Generative Models
- Title(参考訳): 相互情報発散:マルチモーダル生成モデルのための統一計量
- Authors: Jin-Hwa Kim, Yunji Kim, Jiyoung Lee, Kang Min Yoo, Sang-Woo Lee
- Abstract要約: 我々は,MID(Multual Information Divergence)を用いて作成したCLIP特徴を統一計量として用いた負のガウス交叉情報を提案する。
我々は、テキスト・ツー・イメージ生成や画像キャプションタスクにおいて、慎重に生成された、あるいは人手による判断を用いて、競合する指標と比較した。
提案したMIDは、ベンチマーク、サンプルパーシモニー、および悪用されたCLIPモデルに対するロバスト性によって、競合する手法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 19.520177195241704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation and image captioning are recently emerged as a new
experimental paradigm to assess machine intelligence. They predict continuous
quantity accompanied by their sampling techniques in the generation, making
evaluation complicated and intractable to get marginal distributions. Based on
a recent trend that multimodal generative evaluations exploit a
vison-and-language pre-trained model, we propose the negative Gaussian
cross-mutual information using the CLIP features as a unified metric, coined by
Mutual Information Divergence (MID). To validate, we extensively compare it
with competing metrics using carefully-generated or human-annotated judgments
in text-to-image generation and image captioning tasks. The proposed MID
significantly outperforms the competitive methods by having consistency across
benchmarks, sample parsimony, and robustness toward the exploited CLIP model.
We look forward to seeing the underrepresented implications of the Gaussian
cross-mutual information in multimodal representation learning and the future
works based on this novel proposition.
- Abstract(参考訳): 近年,機械インテリジェンスを評価するための新たな実験パラダイムとして,テキスト画像生成と画像キャプションが登場している。
彼らは, 連続的な量の予測を行い, サンプリング手法を世代内に導入し, 評価を複雑かつ難解にし, 限界分布を得る。
近年,マルチモーダル生成評価がバイソン・アンド・ランゲージ事前学習モデル(vison-and-language pre-trained model)を活用している傾向から,クリップ特徴を統一メトリクスとして用いる負のガウス的相互交換情報を提案する。
テキスト対画像生成や画像キャプションタスクにおいて、慎重に生成された、あるいは人間の注釈による判断を用いて、競合する指標と比較する。
提案するmidは,ベンチマーク間の一貫性,サンプル・パーシモニー,悪用されたクリップモデルに対するロバスト性によって,競合手法を著しく上回っている。
我々は,多モーダル表現学習におけるガウス横断情報の影響と,本提案に基づく今後の研究を楽しみにしている。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z) - Mean Embeddings with Test-Time Data Augmentation for Ensembling of
Representations [8.336315962271396]
表現のアンサンブルを考察し、MeTTA(Test-time augmentation)を用いた平均埋め込みを提案する。
MeTTAは、教師付きモデルと自己教師付きモデルの両方において、ImageNetの線形評価の質を大幅に向上させる。
我々は、より高品質な表現を推論するためにアンサンブルの成功を広めることが、多くの新しいアンサンブルアプリケーションを開く重要なステップであると信じている。
論文 参考訳(メタデータ) (2021-06-15T10:49:46Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - Fast Ensemble Learning Using Adversarially-Generated Restricted
Boltzmann Machines [0.0]
Restricted Boltzmann Machine (RBM)は近年注目され、データ確率分布をモデル化するエネルギーベースの構造に依存している。
本稿では,事前学習した重み行列がGAN入力として機能するAdversarial Learningを用いて,RBMを人工的に生成することを提案する。
画像再構成および画像分類タスクにおける提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2021-01-04T16:00:47Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。