論文の概要: Learning Multi-Modal Nonlinear Embeddings: Performance Bounds and an
Algorithm
- arxiv url: http://arxiv.org/abs/2006.02330v2
- Date: Thu, 24 Dec 2020 22:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 17:08:27.507859
- Title: Learning Multi-Modal Nonlinear Embeddings: Performance Bounds and an
Algorithm
- Title(参考訳): 多モード非線形埋め込みの学習:性能境界とアルゴリズム
- Authors: Semih Kaya and Elif Vural
- Abstract要約: 本稿では,マルチモーダルな非線形埋め込みを教師付き環境で学習する理論的解析を行う。
次に,これらの理論的な発見を動機とした多モード非線形表現学習アルゴリズムを提案する。
近年のマルチモーダル・シングルモーダル学習アルゴリズムとの比較により,提案手法は多モーダル画像分類およびクロスモーダル画像テキスト検索において有望な性能を示すことが示唆された。
- 参考スコア(独自算出の注目度): 8.528384027684192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many approaches exist in the literature to learn low-dimensional
representations for data collections in multiple modalities, the
generalizability of multi-modal nonlinear embeddings to previously unseen data
is a rather overlooked subject. In this work, we first present a theoretical
analysis of learning multi-modal nonlinear embeddings in a supervised setting.
Our performance bounds indicate that for successful generalization in
multi-modal classification and retrieval problems, the regularity of the
interpolation functions extending the embedding to the whole data space is as
important as the between-class separation and cross-modal alignment criteria.
We then propose a multi-modal nonlinear representation learning algorithm that
is motivated by these theoretical findings, where the embeddings of the
training samples are optimized jointly with the Lipschitz regularity of the
interpolators. Experimental comparison to recent multi-modal and single-modal
learning algorithms suggests that the proposed method yields promising
performance in multi-modal image classification and cross-modal image-text
retrieval applications.
- Abstract(参考訳): 複数のモダリティでデータコレクションの低次元表現を学ぶための文献には多くのアプローチが存在するが、以前は見過ごされていたデータへのマルチモーダル非線形埋め込みの一般化は見過ごされている。
本研究ではまず,マルチモーダルな非線形埋め込みを教師付き環境で学習する理論的解析を行う。
性能限界は,マルチモーダル分類と検索問題の一般化に成功するためには,データ空間全体に埋め込む補間関数の規則性が,クラス間分離やクロスモーダルアライメント基準と同様に重要であることを示している。
次に,これらの理論的な発見を動機とした多モード非線形表現学習アルゴリズムを提案し,このアルゴリズムでは,インタプリタのリプシッツ正則性とトレーニングサンプルの埋め込みを協調的に最適化する。
近年のマルチモーダル・シングルモーダル学習アルゴリズムとの比較により,提案手法は多モーダル画像分類およびクロスモーダル画像テキスト検索において有望な性能を示すことを示す。
関連論文リスト
- Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - One-step Multi-view Clustering with Diverse Representation [47.41455937479201]
本稿では,多視点学習と$k$-meansを統合フレームワークに組み込んだ一段階のマルチビュークラスタリングを提案する。
そこで本研究では,効率の良い最適化アルゴリズムを開発し,その解法について述べる。
論文 参考訳(メタデータ) (2023-06-08T02:52:24Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z) - Deep Class-Specific Affinity-Guided Convolutional Network for Multimodal
Unpaired Image Segmentation [7.021001169318551]
マルチモーダル医療イメージセグメンテーションは、臨床診断に不可欠な役割を担います。
入力モダリティはしばしば空間的に整列していないため、依然として困難である。
マルチモーダル画像分割のための親和性誘導完全畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-05T13:56:51Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z) - Unsupervised Multi-view Clustering by Squeezing Hybrid Knowledge from
Cross View and Each View [68.88732535086338]
本稿では,適応グラフ正規化に基づくマルチビュークラスタリング手法を提案する。
5つの多視点ベンチマークの実験結果から,提案手法が他の最先端手法をクリアマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-08-23T08:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。