論文の概要: Auto-Encoder based Co-Training Multi-View Representation Learning
- arxiv url: http://arxiv.org/abs/2201.02978v1
- Date: Sun, 9 Jan 2022 10:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 03:33:06.284976
- Title: Auto-Encoder based Co-Training Multi-View Representation Learning
- Title(参考訳): 自動エンコーダに基づく多視点表現学習
- Authors: Run-kun Lu, Jian-wei Liu, Yuan-fang Wang, Hao-jie Xie, Xin Zuo
- Abstract要約: 自動エンコーダに基づくコトレーニング型マルチビュー学習(ACMVL)という新しいアルゴリズムを提案する。
アルゴリズムには2つの段階があり、第1は各ビューの自動エンコーダを訓練し、第2段階は教師付きネットワークを訓練する。
実験結果から,優れた潜在特徴表現を学習でき,各ビューの自動エンコーダは従来のオートエンコーダよりも強力な再構成能力を有することがわかった。
- 参考スコア(独自算出の注目度): 10.120166898507328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view learning is a learning problem that utilizes the various
representations of an object to mine valuable knowledge and improve the
performance of learning algorithm, and one of the significant directions of
multi-view learning is sub-space learning. As we known, auto-encoder is a
method of deep learning, which can learn the latent feature of raw data by
reconstructing the input, and based on this, we propose a novel algorithm
called Auto-encoder based Co-training Multi-View Learning (ACMVL), which
utilizes both complementarity and consistency and finds a joint latent feature
representation of multiple views. The algorithm has two stages, the first is to
train auto-encoder of each view, and the second stage is to train a supervised
network. Interestingly, the two stages share the weights partly and assist each
other by co-training process. According to the experimental result, we can
learn a well performed latent feature representation, and auto-encoder of each
view has more powerful reconstruction ability than traditional auto-encoder.
- Abstract(参考訳): 多視点学習は、オブジェクトの様々な表現を利用して、貴重な知識をマイニングし、学習アルゴリズムの性能を向上させる学習問題であり、多視点学習の重要な方向性の1つは、サブスペース学習である。
オートエンコーダは、入力を再構成することで生データの潜時特徴を学習する深層学習の手法であり、これに基づいて、相補性と一貫性を両立させ、複数のビューの協調潜時特徴表現を求める、Auto-encoder based Co-training Multi-View Learning (ACMVL)と呼ばれる新しいアルゴリズムを提案する。
アルゴリズムには2つの段階があり、第1は各ビューの自動エンコーダを訓練し、第2段階は教師付きネットワークを訓練する。
興味深いことに、2つのステージは重みを部分的に共有し、コトレーニングプロセスによって互いに助け合う。
実験結果から,優れた潜在特徴表現を学習でき,各ビューの自動エンコーダは従来のオートエンコーダよりも強力な再構成能力を有することがわかった。
関連論文リスト
- Masked Two-channel Decoupling Framework for Incomplete Multi-view Weak Multi-label Learning [21.49630640829186]
本稿では,不完全な多視点弱多言語学習における複雑かつ現実的な課題に焦点をあてる。
本稿では,この問題を解決するために,ディープニューラルネットワークに基づくマスク付き2チャネルデカップリングフレームワークを提案する。
我々のモデルは任意のビューやラベルの欠如に完全に適応でき、また理想的な全データでもうまく機能する。
論文 参考訳(メタデータ) (2024-04-26T11:39:50Z) - MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - CoT-MAE v2: Contextual Masked Auto-Encoder with Multi-view Modeling for
Passage Retrieval [34.08763911138496]
本研究は、コンテキストマスキング自動エンコーダにマルチビューモデリングをもたらす。
このマルチビュー事前学習手法をCoT-MAE v2と呼ぶ。
論文 参考訳(メタデータ) (2023-04-05T08:00:38Z) - A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision [93.90545426665999]
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。
鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。
これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
論文 参考訳(メタデータ) (2023-03-30T13:42:58Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Interleaving Learning, with Application to Neural Architecture Search [12.317568257671427]
インターリーブ学習(IL)と呼ばれる新しい機械学習フレームワークを提案する。
私たちのフレームワークでは、一連のモデルが相互に連携してデータエンコーダを学習します。
CIFAR-10, CIFAR-100, ImageNetの画像分類にインターリービング学習を適用した。
論文 参考訳(メタデータ) (2021-03-12T00:54:22Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Provable Meta-Learning of Linear Representations [114.656572506859]
我々は、複数の関連するタスクから共通の機能の集合を学習し、その知識を新しい未知のタスクに転送する、という2つの課題に対処する、高速でサンプル効率のアルゴリズムを提供する。
また、これらの線形特徴を学習する際のサンプルの複雑さに関する情報理論の下限も提供する。
論文 参考訳(メタデータ) (2020-02-26T18:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。