論文の概要: ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map
- arxiv url: http://arxiv.org/abs/2407.12315v1
- Date: Wed, 17 Jul 2024 04:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:27:38.685998
- Title: ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map
- Title(参考訳): ModalChorus: Modal Fusion Mapによるマルチモーダル埋め込みの可視化とアライメント
- Authors: Yilin Ye, Shishi Xiao, Xingchen Zeng, Wei Zeng,
- Abstract要約: マルチモーダル埋め込みの視覚的探索とアライメントのための対話型システムであるModalChorusを設計する。
1) モーダル・フュージョン・マップ (MFM) を埋め込んだ新しい次元減少法である。
ケーススタディでは、ゼロショット分類からクロスモーダル検索と生成までのシナリオにおいて、ModalChorusが直感的に誤調整と効率的な再調整の発見を容易にすることが示されている。
- 参考スコア(独自算出の注目度): 1.6570772838074355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal embeddings form the foundation for vision-language models, such as CLIP embeddings, the most widely used text-image embeddings. However, these embeddings are vulnerable to subtle misalignment of cross-modal features, resulting in decreased model performance and diminished generalization. To address this problem, we design ModalChorus, an interactive system for visual probing and alignment of multi-modal embeddings. ModalChorus primarily offers a two-stage process: 1) embedding probing with Modal Fusion Map (MFM), a novel parametric dimensionality reduction method that integrates both metric and nonmetric objectives to enhance modality fusion; and 2) embedding alignment that allows users to interactively articulate intentions for both point-set and set-set alignments. Quantitative and qualitative comparisons for CLIP embeddings with existing dimensionality reduction (e.g., t-SNE and MDS) and data fusion (e.g., data context map) methods demonstrate the advantages of MFM in showcasing cross-modal features over common vision-language datasets. Case studies reveal that ModalChorus can facilitate intuitive discovery of misalignment and efficient re-alignment in scenarios ranging from zero-shot classification to cross-modal retrieval and generation.
- Abstract(参考訳): マルチモーダル埋め込みは、最も広く使われているテキストイメージ埋め込みであるCLIP埋め込みのようなビジョン言語モデルの基盤を形成する。
しかし、これらの埋め込みは、クロスモーダルな特徴の微妙なミスアライメントに弱いため、モデル性能が低下し、一般化が低下する。
この問題に対処するために,マルチモーダル埋め込みの視覚的探索とアライメントのためのインタラクティブシステムであるModalChorusを設計する。
ModalChorusは主に2段階のプロセスを提供している。
1 モーダルフュージョンマップ(MFM)による埋め込み探索(MFM) - 計量と非計量の両目的を統合してモダリティ融合を強化するパラメトリック次元削減法-
2) 埋め込みアライメントにより、ユーザーはポイントセットとセットセットの両方のアライメントに対して対話的に意図を表現できる。
CLIP埋め込みと既存の次元削減(例えば、t-SNEとMDS)とデータ融合(例えば、データコンテキストマップ)メソッドとの定量的および定性的な比較は、共通ビジョン言語データセットに対するクロスモーダルな特徴を示す上で、MFMの利点を示す。
ケーススタディでは、ゼロショット分類からクロスモーダル検索と生成までのシナリオにおいて、ModalChorusが直感的に誤調整と効率的な再調整の発見を容易にすることが示されている。
関連論文リスト
- Shapley Value-based Contrastive Alignment for Multimodal Information Extraction [17.04865437165252]
我々は、画像-コンテキスト-テキストインタラクションの新しいパラダイムを導入する。
本稿では,新しいシェープ値に基づくコントラストアライメント(Shap-CA)法を提案する。
我々の手法は既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-25T08:15:43Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。