論文の概要: Deep Multi-Modal Sets
- arxiv url: http://arxiv.org/abs/2003.01607v1
- Date: Tue, 3 Mar 2020 15:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 23:02:51.236604
- Title: Deep Multi-Modal Sets
- Title(参考訳): 深層多モード集合
- Authors: Austin Reiter, Menglin Jia, Pu Yang, Ser-Nam Lim
- Abstract要約: ディープ・マルチモーダル・セット(Deep Multi-Modal Sets)は、1つの長く成長する固定サイズのベクトルではなく、非順序集合として特徴の集合を表現する技法である。
さまざまなタイプのタスクを学習するために,さまざまなモダリティを理由として,スケーラブルでマルチモーダルなフレームワークを実証する。
- 参考スコア(独自算出の注目度): 29.983311598563542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many vision-related tasks benefit from reasoning over multiple modalities to
leverage complementary views of data in an attempt to learn robust embedding
spaces. Most deep learning-based methods rely on a late fusion technique
whereby multiple feature types are encoded and concatenated and then a multi
layer perceptron (MLP) combines the fused embedding to make predictions. This
has several limitations, such as an unnatural enforcement that all features be
present at all times as well as constraining only a constant number of
occurrences of a feature modality at any given time. Furthermore, as more
modalities are added, the concatenated embedding grows. To mitigate this, we
propose Deep Multi-Modal Sets: a technique that represents a collection of
features as an unordered set rather than one long ever-growing fixed-size
vector. The set is constructed so that we have invariance both to permutations
of the feature modalities as well as to the cardinality of the set. We will
also show that with particular choices in our model architecture, we can yield
interpretable feature performance such that during inference time we can
observe which modalities are most contributing to the prediction.With this in
mind, we demonstrate a scalable, multi-modal framework that reasons over
different modalities to learn various types of tasks. We demonstrate new
state-of-the-art performance on two multi-modal datasets (Ads-Parallelity [34]
and MM-IMDb [1]).
- Abstract(参考訳): 多くの視覚関連タスクは、堅牢な埋め込み空間を学習するために、データの相補的なビューを活用するために複数のモダリティに対する推論の恩恵を受ける。
深層学習に基づくほとんどの手法は、複数の特徴型をエンコードして連結し、マルチ層パーセプトロン(MLP)が融合した埋め込みを組み合わせて予測を行う、後期融合技術に依存している。
これは、全ての特徴が常に存在するという不自然な強制や、任意の時間における特徴モダリティの一定数の発生のみを制限するようないくつかの制限がある。
さらに、より多くのモダリティが追加されると、連結埋め込みは増加する。
そこで本研究では,長きにわたる固定サイズのベクトルではなく,非順序集合として特徴の集合を表現する手法である深層マルチモーダル集合を提案する。
集合は、特徴モダリティの置換と集合の濃度の両方に不変性を持つように構成される。
また、モデルアーキテクチャの特定の選択において、推論時間中に、予測に最も寄与するモダリティを観察できるような、解釈可能な機能パフォーマンスが得られることも示します。このことを念頭に置いて、さまざまなモダリティを理由として、さまざまな種類のタスクを学習するスケーラブルでマルチモダリティフレームワークを実演します。
本稿では,2つのマルチモーダルデータセット(Ads-Parallelity [34] と MM-IMDb [1])上での最先端性能を示す。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MM-GEF: Multi-modal representation meet collaborative filtering [51.04679619309803]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Representing Unordered Data Using Complex-Weighted Multiset Automata [23.68657135308002]
我々は、既存のニューラルネットワークアーキテクチャのマルチセット表現を、我々の特別なケースとみなすことができることを示す。
すなわち、正弦波関数を用いたトランスフォーマーモデルの位置表現に対して、新しい理論的、直感的な正当性を与える。
私たちはDeepSetsモデルを複雑な数に拡張し、既存のモデルをそのタスクの1つの拡張で上回るようにします。
論文 参考訳(メタデータ) (2020-01-02T20:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。