論文の概要: Embed Everything: A Method for Efficiently Co-Embedding Multi-Modal
Spaces
- arxiv url: http://arxiv.org/abs/2110.04599v1
- Date: Sat, 9 Oct 2021 15:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:39:53.915076
- Title: Embed Everything: A Method for Efficiently Co-Embedding Multi-Modal
Spaces
- Title(参考訳): 全てを埋め込む:マルチモーダル空間を効率的に組み込む方法
- Authors: Sarah Di, Robin Yu, Amol Kapoor
- Abstract要約: マルチモーダル空間を包含する新しい,費用対効果の高いHTL戦略を提案する。
本手法は,すべてのコンポーネントに対する事前学習モデルを用いて,組込みを前処理することでコスト非効率を回避する。
共同画像・オーディオ埋め込み作業における本システムの利用を実証する。
- 参考スコア(独自算出の注目度): 3.0795668932789524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Any general artificial intelligence system must be able to interpret, operate
on, and produce data in a multi-modal latent space that can represent audio,
imagery, text, and more. In the last decade, deep neural networks have seen
remarkable success in unimodal data distributions, while transfer learning
techniques have seen a massive expansion of model reuse across related domains.
However, training multi-modal networks from scratch remains expensive and
illusive, while heterogeneous transfer learning (HTL) techniques remain
relatively underdeveloped. In this paper, we propose a novel and cost-effective
HTL strategy for co-embedding multi-modal spaces. Our method avoids cost
inefficiencies by preprocessing embeddings using pretrained models for all
components, without passing gradients through these models. We prove the use of
this system in a joint image-audio embedding task. Our method has wide-reaching
applications, as successfully bridging the gap between different latent spaces
could provide a framework for the promised "universal" embedding.
- Abstract(参考訳): あらゆる一般的な人工知能システムは、音声、画像、テキストなどを表現できるマルチモーダルな潜在空間でデータを解釈、操作、生成できる必要があります。
過去10年間で、ディープニューラルネットワークは単調なデータ分布で顕著な成功を収め、トランスファーラーニング技術は関連するドメイン間でモデルの再利用が大幅に拡大した。
しかし、スクラッチからマルチモーダルネットワークをトレーニングすることは高価であり、また、ヘテロジニアストランスファーラーニング(HTL)技術は比較的開発が進んでいない。
本稿では,マルチモーダル空間を包含する新しい,コスト効率の高いHTL戦略を提案する。
本手法は,各コンポーネントに対する事前学習モデルを用いて埋め込みを前処理することでコスト不効率を回避する。
共同画像・オーディオ埋め込み作業における本システムの利用を実証する。
提案手法は,異なる潜在空間間のギャップを埋めることによって,約束される「普遍的」埋め込みのためのフレームワークを提供するため,広い範囲の応用が期待できる。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Lightweight Cross-Modal Representation Learning [0.07499722271664146]
低コストなクロスモーダル表現学習は、テキスト、オーディオ、画像、ビデオなどの様々なモダリティにまたがる意味表現の導出に不可欠である。
光CRL(Lightweight Cross-Modal Representation Learning)という新しいアプローチを導入する。
この方法では、DFE(Deep Fusion)と呼ばれる単一のニューラルネットワークを使用し、複数のモードから共有潜在表現空間にデータを投影する。
論文 参考訳(メタデータ) (2024-03-07T16:50:25Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - $\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text
Generation [65.29170569821093]
並列テキスト生成は、ジェネレーション効率の成功により、広く注目を集めています。
本稿では,単語分類情報を取得するために,離散潜在変数を用いた$textitlatent$-GLATを提案する。
実験結果から,本手法は自己回帰モデルを用いることなく,強いベースラインを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-05T07:34:12Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Omni-Training for Data-Efficient Deep Learning [80.28715182095975]
近年の進歩により、適切に訓練されたモデルが重要な特性であるトランスファービリティを持つことが明らかとなった。
事前訓練とメタトレーニングの厳密な組み合わせは、どちらの種類のトランスファー可能性も達成できない。
このことが提案されているOmni-Trainingフレームワークを,データ効率のよいディープラーニングに動機付けている。
論文 参考訳(メタデータ) (2021-10-14T16:30:36Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。