論文の概要: Training Multimodal Systems for Classification with Multiple Objectives
- arxiv url: http://arxiv.org/abs/2008.11450v1
- Date: Wed, 26 Aug 2020 09:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:02:38.620089
- Title: Training Multimodal Systems for Classification with Multiple Objectives
- Title(参考訳): 多目的型分類のためのマルチモーダルシステムの訓練
- Authors: Jason Armitage, Shramana Thakur, Rishi Tripathi, Jens Lehmann, and
Maria Maleshkova
- Abstract要約: 複数のモダリティから学ぶためにアーキテクチャを適用することは、世界の豊かな表現を学ぶ可能性を生み出す。
現在のマルチモーダルシステムは、ユニモーダルアプローチの限界的な改善しか提供していない。
本研究は,変分推論を用いて学習したマルチモーダル融合プロセスに対する第2の目的を紹介する。
- 参考スコア(独自算出の注目度): 6.888664946634335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We learn about the world from a diverse range of sensory information.
Automated systems lack this ability as investigation has centred on processing
information presented in a single form. Adapting architectures to learn from
multiple modalities creates the potential to learn rich representations of the
world - but current multimodal systems only deliver marginal improvements on
unimodal approaches. Neural networks learn sampling noise during training with
the result that performance on unseen data is degraded. This research
introduces a second objective over the multimodal fusion process learned with
variational inference. Regularisation methods are implemented in the inner
training loop to control variance and the modular structure stabilises
performance as additional neurons are added to layers. This framework is
evaluated on a multilabel classification task with textual and visual inputs to
demonstrate the potential for multiple objectives and probabilistic methods to
lower variance and improve generalisation.
- Abstract(参考訳): 我々は様々な感覚情報から世界について学ぶ。
調査が単一の形式で提示される情報に集中しているため、自動化されたシステムにはこのような能力がない。
アーキテクチャを複数のモダリティから学ぶように適応させることは、世界の豊かな表現を学ぶ可能性を生み出します。
ニューラルネットワークはトレーニング中にサンプリングノイズを学習し、その結果、見えないデータのパフォーマンスが低下する。
本研究は,変分推論を用いて学習したマルチモーダル融合プロセスに対する第2の目的を紹介する。
規則化法は内部トレーニングループに実装され、分散を制御し、モジュール構造は層に追加のニューロンを追加することにより性能を安定化する。
本フレームワークは,テキストおよび視覚入力を用いた多言語分類タスクで評価され,多目的の可能性を実証し,分散を低減し,一般化を改善する確率的手法である。
関連論文リスト
- A Classifier-Free Incremental Learning Framework for Scalable Medical Image Segmentation [6.591403935303867]
本稿では,単一分類器のないネットワークにおいて,可変数のクラスをセグメント化できる新しいセグメンテーションパラダイムを提案する。
このネットワークは、コントラスト学習を用いて訓練され、簡単な解釈を容易にする識別的特徴表現を生成する。
統合ネットワーク内での様々なクラス数処理における本手法の柔軟性とその漸進学習能力について述べる。
論文 参考訳(メタデータ) (2024-05-25T19:05:07Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Multi-view Information Bottleneck Without Variational Approximation [34.877573432746246]
情報ボトルネックの原理を教師付き多視点学習シナリオに拡張する。
我々は、最近提案された行列ベースのR'enyiの$alpha$-order entropy関数を用いて、結果の目的を最適化する。
合成と実世界の両方のデータセットにおける実験結果から,各ビューにおけるノイズや冗長な情報に対するロバスト性の向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T06:48:04Z) - Learning Prototype-oriented Set Representations for Meta-Learning [85.19407183975802]
集合構造データから学ぶことは、近年注目を集めている根本的な問題である。
本稿では,既存の要約ネットワークを改善するための新しい最適輸送方式を提案する。
さらに、少数ショット分類と暗黙的メタ生成モデリングの事例にインスタンス化する。
論文 参考訳(メタデータ) (2021-10-18T09:49:05Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Meta-learning One-class Classifiers with Eigenvalue Solvers for
Supervised Anomaly Detection [55.888835686183995]
教師付き異常検出のためのニューラルネットワークに基づくメタラーニング手法を提案する。
提案手法は,既存の異常検出法や少数ショット学習法よりも優れた性能を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-01T01:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。