論文の概要: HighMMT: Towards Modality and Task Generalization for High-Modality
Representation Learning
- arxiv url: http://arxiv.org/abs/2203.01311v2
- Date: Fri, 4 Mar 2022 00:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 12:15:28.876368
- Title: HighMMT: Towards Modality and Task Generalization for High-Modality
Representation Learning
- Title(参考訳): HighMMT:高モダリティ表現学習のためのモダリティとタスク一般化を目指して
- Authors: Paul Pu Liang, Yiwei Lyu, Xiang Fan, Shentong Mo, Dani Yogatama,
Louis-Philippe Morency, Ruslan Salakhutdinov
- Abstract要約: マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。
得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。
コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
- 参考スコア(独自算出の注目度): 121.81678875923524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning multimodal representations involves discovering correspondences and
integrating information from multiple heterogeneous sources of data. While
recent research has begun to explore the design of more general-purpose
multimodal models (contrary to prior focus on domain and modality-specific
architectures), these methods are still largely focused on a small set of
modalities in the language, vision, and audio space. In order to accelerate
generalization towards diverse and understudied modalities, we investigate
methods for high-modality (a large set of diverse modalities) and
partially-observable (each task only defined on a small subset of modalities)
scenarios. To tackle these challenges, we design a general multimodal model
that enables multitask and transfer learning: multitask learning with shared
parameters enables stable parameter counts (addressing scalability), and
cross-modal transfer learning enables information sharing across modalities and
tasks (addressing partial observability). Our resulting model generalizes
across text, image, video, audio, time-series, sensors, tables, and set
modalities from different research areas, improves the tradeoff between
performance and efficiency, transfers to new modalities and tasks, and reveals
surprising insights on the nature of information sharing in multitask models.
We release our code and benchmarks which we hope will present a unified
platform for subsequent theoretical and empirical analysis:
https://github.com/pliang279/HighMMT.
- Abstract(参考訳): マルチモーダル表現の学習は、複数の異種データソースからの対応の発見と情報の統合を伴う。
近年の研究では、より汎用的なマルチモーダルモデル(ドメインやモダリティに特化していたアーキテクチャとは対照的に)の設計が検討されているが、これらの手法は言語、ビジョン、オーディオ空間における小さなモダリティに主に焦点を絞っている。
多様なモダリティに対する一般化を加速するために、高モダリティ(多様モダリティの大規模な集合)と部分可観測性(各タスクはモダリティの小さなサブセットでのみ定義される)のシナリオの手法を調査した。
共有パラメータによるマルチタスク学習は、安定したパラメータカウント(アドレス拡張性)を可能にし、クロスモーダル転送学習は、モダリティとタスク間の情報共有(部分的可観測性)を可能にします。
得られたモデルは,テキスト,画像,ビデオ,オーディオ,時系列,センサ,テーブル,設定モダリティを多種多様な研究領域から一般化し,性能と効率のトレードオフを改善し,新しいモダリティやタスクに移行し,マルチタスクモデルにおける情報共有の性質に関する驚くべき洞察を明らかにする。
私たちはコードとベンチマークをリリースし、その後の理論と経験的分析のための統一プラットフォームを提示したいと考えています。
関連論文リスト
- Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy? [12.662031101992968]
合成および実世界の両方のデータセットにおける認識精度に対する多重モーダル性の影響について検討する。
音声認識のための補足的モダリティとしてのイメージは、中等度雑音レベルにおいて最大の利益をもたらす。
最も関連性の高い視覚情報が前処理ステップとしてフィルタリングされる場合、合成データセットと実世界のデータセットの両方のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-09-13T22:18:45Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Video Sentiment Analysis with Bimodal Information-augmented Multi-Head
Attention [7.997124140597719]
本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。
重要な問題は、これらの異種データをどのように融合するかです。
バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
論文 参考訳(メタデータ) (2021-03-03T12:30:11Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。