論文の概要: Cross-Modal Discrete Representation Learning
- arxiv url: http://arxiv.org/abs/2106.05438v1
- Date: Thu, 10 Jun 2021 00:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 21:28:08.987840
- Title: Cross-Modal Discrete Representation Learning
- Title(参考訳): クロスモーダル離散表現学習
- Authors: Alexander H. Liu, SouYoung Jin, Cheng-I Jeff Lai, Andrew Rouditchenko,
Aude Oliva, James Glass
- Abstract要約: 本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
- 参考スコア(独自算出の注目度): 73.68393416984618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in representation learning have demonstrated an ability to
represent information from different modalities such as video, text, and audio
in a single high-level embedding vector. In this work we present a
self-supervised learning framework that is able to learn a representation that
captures finer levels of granularity across different modalities such as
concepts or events represented by visual objects or spoken words. Our framework
relies on a discretized embedding space created via vector quantization that is
shared across different modalities. Beyond the shared embedding space, we
propose a Cross-Modal Code Matching objective that forces the representations
from different views (modalities) to have a similar distribution over the
discrete embedding space such that cross-modal objects/actions localization can
be performed without direct supervision. In our experiments we show that the
proposed discretized multi-modal fine-grained representation (e.g.,
pixel/word/frame) can complement high-level summary representations (e.g.,
video/sentence/waveform) for improved performance on cross-modal retrieval
tasks. We also observe that the discretized representation uses individual
clusters to represent the same semantic concept across modalities.
- Abstract(参考訳): 表現学習の最近の進歩は、ビデオ、テキスト、音声といった異なるモダリティからの情報を単一の高レベル埋め込みベクトルで表現する能力を示している。
本研究では,視覚的対象や話し言葉によって表現される概念や出来事など,さまざまなモダリティにまたがる詳細な粒度を捉えた表現を学習できる自己教師型学習フレームワークを提案する。
私たちのフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散埋め込み空間に依存しています。
共有埋め込み空間を超えて、異なるビュー(モダリティ)からの表現を離散埋め込み空間上の同様の分布に強制するクロスモーダルコードマッチングの目的を提案し、クロスモーダルオブジェクト/アクションのローカライゼーションを直接の監督なしに行えるようにする。
実験の結果,提案手法は,高レベルな要約表現(例えば,ビデオ/文/波形)を補完することで,クロスモーダル検索タスクの性能を向上させることができることがわかった。
また、離散化表現は個々のクラスタを用いて、モーダル性にまたがる同じ意味概念を表現する。
関連論文リスト
- Disentangling Multi-view Representations Beyond Inductive Bias [32.15900989696017]
本稿では,表現の解釈可能性と一般化性を両立させる新しい多視点表現分離手法を提案する。
提案手法は,クラスタリングと分類性能において,12種類の比較手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T09:09:28Z) - MIR-GAN: Refining Frame-Level Modality-Invariant Representations with
Adversarial Network for Audio-Visual Speech Recognition [23.042478625584653]
フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
特に,フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-18T14:02:20Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。