論文の概要: Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos
- arxiv url: http://arxiv.org/abs/2104.12671v1
- Date: Mon, 26 Apr 2021 15:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:31:30.529776
- Title: Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos
- Title(参考訳): 非ラベルビデオからの自己教師あり学習のためのマルチモーダルクラスタリングネットワーク
- Authors: Brian Chen, Andrew Rouditchenko, Kevin Duarte, Hilde Kuehne, Samuel
Thomas, Angie Boggust, Rameswar Panda, Brian Kingsbury, Rogerio Feris, David
Harwath, James Glass, Michael Picheny, Shih-Fu Chang
- Abstract要約: 本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
- 参考スコア(独自算出の注目度): 69.61522804742427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal self-supervised learning is getting more and more attention as it
allows not only to train large networks without human supervision but also to
search and retrieve data across various modalities. In this context, this paper
proposes a self-supervised training framework that learns a common multimodal
embedding space that, in addition to sharing representations across different
modalities, enforces a grouping of semantically similar instances. To this end,
we extend the concept of instance-level contrastive learning with a multimodal
clustering step in the training pipeline to capture semantic similarities
across modalities. The resulting embedding space enables retrieval of samples
across all modalities, even from unseen datasets and different domains. To
evaluate our approach, we train our model on the HowTo100M dataset and evaluate
its zero-shot retrieval capabilities in two challenging domains, namely
text-to-video retrieval, and temporal action localization, showing
state-of-the-art results on four different datasets.
- Abstract(参考訳): マルチモーダルな自己教師付き学習は、人間の監督なしに大規模ネットワークをトレーニングするだけでなく、さまざまなモダリティに関するデータの検索と検索を可能にするため、ますます注目を集めている。
本稿では,異なるモダリティ間の表現の共有に加えて,意味的に類似したインスタンスのグループ化を強制する,共通マルチモーダル埋め込み空間を学習する自己教師付き学習フレームワークを提案する。
この目的のために、トレーニングパイプラインにおけるマルチモーダルクラスタリングステップを用いて、インスタンスレベルのコントラスト学習の概念を拡張し、モーダルのセマンティックな類似性を捉える。
結果として得られる埋め込み空間は、見当たらないデータセットや異なるドメインからでも、すべてのモダリティにわたってサンプルの検索を可能にする。
提案手法を評価するために,ハウト100Mデータセットを用いてモデルをトレーニングし,テキスト・ツー・ビデオ検索と時間的アクション・ローカライゼーションという2つの課題領域におけるゼロショット検索能力を評価する。
関連論文リスト
- Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Multi-network Contrastive Learning Based on Global and Local
Representations [4.190134425277768]
本稿では,グローバルおよびローカル表現に基づくマルチネットワークコントラスト学習フレームワークを提案する。
複数のネットワークを通じて自己指導型コントラスト学習のためのグローバル・ローカル特徴情報を導入する。
また、コントラストに使用されるサンプルの数を増やし、モデルのトレーニング効率を向上させる。
論文 参考訳(メタデータ) (2023-06-28T05:30:57Z) - Semi-supervised Multimodal Representation Learning through a Global Workspace [2.8948274245812335]
グローバルワークスペース」は2つの入力モダリティの共有表現である。
このアーキテクチャは、サイクル一貫性による自己教師型トレーニングに適しています。
このようなアーキテクチャは、一致したデータを必要とすることがほとんどなく、2つのモダリティを調整し、翻訳するように訓練できることを示します。
論文 参考訳(メタデータ) (2023-06-27T12:41:36Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Semi-supervised Multi-task Learning for Semantics and Depth [88.77716991603252]
MTL(Multi-Task Learning)は、関連するタスク間で表現を共有することで、モデル一般化を強化することを目的としている。
そこで本研究では,異なるデータセットから利用可能な監視信号を活用するために,半教師付きマルチタスク学習(MTL)手法を提案する。
本稿では,データセット間の整合性の問題を軽減するために,様々なアライメントの定式化を施したドメイン認識識別器構造を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:43:39Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。