論文の概要: Preserving Modality Structure Improves Multi-Modal Learning
- arxiv url: http://arxiv.org/abs/2308.13077v1
- Date: Thu, 24 Aug 2023 20:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 15:40:22.416413
- Title: Preserving Modality Structure Improves Multi-Modal Learning
- Title(参考訳): マルチモーダル学習を改善するモダリティ構造保存
- Authors: Swetha Sirnam, Mamshad Nayeem Rizve, Nina Shvetsova, Hilde Kuehne,
Mubarak Shah
- Abstract要約: 大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
- 参考スコア(独自算出の注目度): 64.10085674834252
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning on large-scale multi-modal datasets allows learning
semantically meaningful embeddings in a joint multi-modal representation space
without relying on human annotations. These joint embeddings enable zero-shot
cross-modal tasks like retrieval and classification. However, these methods
often struggle to generalize well on out-of-domain data as they ignore the
semantic structure present in modality-specific embeddings. In this context, we
propose a novel Semantic-Structure-Preserving Consistency approach to improve
generalizability by preserving the modality-specific relationships in the joint
embedding space. To capture modality-specific semantic relationships between
samples, we propose to learn multiple anchors and represent the multifaceted
relationship between samples with respect to their relationship with these
anchors. To assign multiple anchors to each sample, we propose a novel
Multi-Assignment Sinkhorn-Knopp algorithm. Our experimentation demonstrates
that our proposed approach learns semantically meaningful anchors in a
self-supervised manner. Furthermore, our evaluation on MSR-VTT and YouCook2
datasets demonstrates that our proposed multi-anchor assignment based solution
achieves state-of-the-art performance and generalizes to both inand
out-of-domain datasets. Code: https://github.com/Swetha5/Multi_Sinkhorn_Knopp
- Abstract(参考訳): 大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、共同マルチモーダル表現空間に意味論的に意味のある埋め込みを学習することができる。
これらの共同埋め込みは、検索や分類のようなゼロショットのクロスモーダルなタスクを可能にする。
しかし、これらの手法はモダリティ固有の埋め込みに存在する意味構造を無視するため、ドメイン外のデータをうまく一般化するのに苦労することが多い。
この文脈において,ジョイント埋め込み空間におけるモダリティ固有の関係を保ちながら,一般化性を向上させるための新しい意味構造保存一貫性アプローチを提案する。
サンプル間のモーダリティ特有の意味関係を捉えるために,複数のアンカーを学習し,それらのアンカーとの関係に関してサンプル間の多面的な関係を表現することを提案する。
各サンプルに複数のアンカーを割り当てるために,新しいマルチアサインメントシンクホーン-ノックアルゴリズムを提案する。
実験により,提案手法は意味論的に意味のあるアンカーを自己指導的に学習することを示した。
さらに,msr-vttとyoucook2データセットの評価により,提案するマルチアンカー割当方式が最先端性能を実現し,ドメイン内データセットとドメイン外データセットの両方に一般化できることを実証した。
コード: https://github.com/swetha5/multi_sinkhorn_knopp
関連論文リスト
- Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations [16.036997801745905]
マルチモーダル学習は、機械学習モデルが多様なデータソースを融合し利用できるようにする上で重要な役割を果たす。
ImageBindのような最近のバインディング手法では、固定アンカーのモダリティを使用して、アンカーのモダル埋め込み空間内のマルチモーダルデータをアライメントする。
我々はCentroBindを提案する。CentroBindは、固定アンカーを必要としない、シンプルだが強力なアプローチである。
論文 参考訳(メタデータ) (2024-10-02T23:19:23Z) - Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances [24.142013877384603]
本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。
UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、事前トレーニングを実行するために使用される。
我々は、最先端の手法よりもクラスタリングメトリクスの2-6%のスコアが顕著に改善され、この領域で最初の成功例となった。
論文 参考訳(メタデータ) (2024-05-21T13:24:07Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Unity by Diversity: Improved Representation Learning in Multimodal VAEs [24.691068754720106]
ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。
既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
論文 参考訳(メタデータ) (2024-03-08T13:29:46Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。