論文の概要: GMC -- Geometric Multimodal Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2202.03390v2
- Date: Tue, 8 Feb 2022 07:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 12:17:05.335351
- Title: GMC -- Geometric Multimodal Contrastive Representation Learning
- Title(参考訳): gmc --幾何多様コントラスト表現学習
- Authors: Petra Poklukar, Miguel Vasco, Hang Yin, Francisco S. Melo, Ana Paiva,
Danica Kragic
- Abstract要約: 本稿では,2つの主成分からなる表現学習手法を提案する。
我々は,GMC表現が意味的にリッチであり,最先端の性能を実現することを実験的に実証した。
- 参考スコア(独自算出の注目度): 26.437843775786856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning representations of multimodal data that are both informative and
robust to missing modalities at test time remains a challenging problem due to
the inherent heterogeneity of data obtained from different channels. To address
it, we present a novel Geometric Multimodal Contrastive (GMC) representation
learning method comprised of two main components: i) a two-level architecture
consisting of modality-specific base encoder, allowing to process an arbitrary
number of modalities to an intermediate representation of fixed dimensionality,
and a shared projection head, mapping the intermediate representations to a
latent representation space; ii) a multimodal contrastive loss function that
encourages the geometric alignment of the learned representations. We
experimentally demonstrate that GMC representations are semantically rich and
achieve state-of-the-art performance with missing modality information on three
different learning problems including prediction and reinforcement learning
tasks.
- Abstract(参考訳): テスト時のモダリティの欠如に対して情報的かつ堅牢なマルチモーダルデータの表現を学習することは、異なるチャネルから得られるデータの固有不均一性のため、依然として難しい問題である。
そこで本研究では,2つの主成分からなるGMC(Geometric Multimodal Contrastive)表現学習手法を提案する。
一 任意の数のモダリティを固定次元の中間表現に加工することができるモダリティ固有の基底エンコーダと、中間表現を潜在表現空間にマッピングする共有投影ヘッドとからなる二段階アーキテクチャ
二 学習した表現の幾何学的アライメントを促進するマルチモーダルコントラスト損失関数
我々は,gmc表現が意味的に豊かであり,予測や強化学習タスクを含む3つの異なる学習問題のモダリティ情報を欠いた最先端のパフォーマンスを実現することを実験的に実証する。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Multi-Grained Contrast for Data-Efficient Unsupervised Representation Learning [10.630297877530614]
教師なし表現学習のための新しいマルチグラインドコントラスト法(MGC)を提案する。
具体的には、ポジティブビュー間の微妙な多重粒度対応を構築し、その上で、対応によって多粒度コントラストを行い、より一般的な教師なし表現を学習する。
提案手法は,オブジェクト検出,インスタンスセグメンテーション,シーン解析,セマンティックセグメンテーション,キーポイント検出など,広範囲なダウンストリームタスクにおいて,既存の最先端手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-02T07:35:21Z) - Latent Functional Maps: a spectral framework for representation alignment [34.20582953800544]
表現学習コミュニティに多目的フレームワークを導入し、(i)異なる空間を解釈可能な方法で比較し、その内在的類似性を測定すること、(ii)教師なしと弱教師付きの両方で対応性を見出すこと、(iii)異なる空間間の表現を効果的に伝達すること。
我々は, 縫合作業から検索作業, および複数のモダリティに至るまで, 様々なアプリケーションにおいて, フレームワークを検証し, 表現アライメントのためのスウィスアームナイフとして機能することを示す。
論文 参考訳(メタデータ) (2024-06-20T10:43:28Z) - Semantically Consistent Multi-view Representation Learning [11.145085584637744]
SCMRL(Semantically Consistent Multi-view Representation Learning)を提案する。
SCMRLは、基礎となる多視点セマンティックコンセンサス情報を抽出し、その情報を利用して、統合された特徴表現学習を導く。
いくつかの最先端のアルゴリズムと比較して、広範な実験はその優位性を示している。
論文 参考訳(メタデータ) (2023-03-08T04:27:46Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - Generative Partial Multi-View Clustering [133.36721417531734]
本稿では,不完全なマルチビュー問題に対処するため,GP-MVCと呼ばれる生成的部分的マルチビュークラスタリングモデルを提案する。
まず、マルチビューエンコーダネットワークをトレーニングして、一般的な低次元表現を学習し、次にクラスタリング層を使用して複数のビューをまたいだ一貫したクラスタ構造をキャプチャする。
第2に、他のビューが与える共有表現に基づいて、1つのビュー条件の欠落データを生成するために、ビュー固有の生成敵ネットワークを開発する。
論文 参考訳(メタデータ) (2020-03-29T17:48:27Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。