論文の概要: Single-branch Network for Multimodal Training
- arxiv url: http://arxiv.org/abs/2303.06129v1
- Date: Fri, 10 Mar 2023 18:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 13:57:24.094560
- Title: Single-branch Network for Multimodal Training
- Title(参考訳): マルチモーダルトレーニングのためのシングルブランチネットワーク
- Authors: Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Muhammad Zaigham
Zaheer, Karthik Nandakumar, Muhammad Haroon Yousaf, Arif Mahmood
- Abstract要約: 本稿では,ネットワークを変更することなく,一助詞の識別表現とマルチモーダルタスクを学習できる新しい単一ブランチネットワークを提案する。
本提案手法は,クロスモーダル検証と各種損失定式化タスクの整合性に挑戦するマルチモーダル問題(対面音声アソシエーション)に基づいて,提案したシングルブランチネットワークの評価を行う。
- 参考スコア(独自算出の注目度): 19.690844799632327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid growth of social media platforms, users are sharing billions
of multimedia posts containing audio, images, and text. Researchers have
focused on building autonomous systems capable of processing such multimedia
data to solve challenging multimodal tasks including cross-modal retrieval,
matching, and verification. Existing works use separate networks to extract
embeddings of each modality to bridge the gap between them. The modular
structure of their branched networks is fundamental in creating numerous
multimodal applications and has become a defacto standard to handle multiple
modalities. In contrast, we propose a novel single-branch network capable of
learning discriminative representation of unimodal as well as multimodal tasks
without changing the network. An important feature of our single-branch network
is that it can be trained either using single or multiple modalities without
sacrificing performance. We evaluated our proposed single-branch network on the
challenging multimodal problem (face-voice association) for cross-modal
verification and matching tasks with various loss formulations. Experimental
results demonstrate the superiority of our proposed single-branch network over
the existing methods in a wide range of experiments. Code:
https://github.com/msaadsaeed/SBNet
- Abstract(参考訳): ソーシャルメディアプラットフォームの急速な成長に伴い、ユーザーはオーディオ、画像、テキストを含む何十億ものマルチメディア投稿を共有している。
研究者は、マルチメディアデータを処理して、クロスモーダル検索、マッチング、検証といった課題を解決できる自律システムの構築に注力してきた。
既存の作業では、それぞれのモダリティの埋め込みを抽出するために別々のネットワークを使用している。
分岐ネットワークのモジュラー構造は、多数のマルチモーダルアプリケーションを作成する上で基本であり、複数のモダリティを扱うデファクトスタンダードとなっている。
対照的に,ユニモーダルの識別表現とマルチモーダルタスクをネットワークを変更することなく学習できる,新しいシングルブランチネットワークを提案する。
シングルブランチネットワークの重要な特徴は、パフォーマンスを犠牲にすることなく、シングルまたは複数モードでトレーニングできることです。
提案したシングルブランチネットワークを,多モーダルな複数モーダル問題(対面音声アソシエーション)の相互検証と各種損失定式化によるタスクの整合性評価を行った。
実験結果から,提案したシングルブランチネットワークが既存手法よりも幅広い実験で優れていることが示された。
コード:https://github.com/msaadsaeed/SBNet
関連論文リスト
- Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - OmniVec: Learning robust representations with cross modal sharing [28.023214572340336]
複数のタスクを複数のモードで,統一されたアーキテクチャで学習する手法を提案する。
提案するネットワークはタスク固有エンコーダ(中央の共通トランク)とタスク固有予測ヘッドで構成される。
私たちは、視覚、オーディオ、テキスト、3Dなどの主要なモダリティでネットワークをトレーニングし、22ドルの多様性と挑戦的な公開ベンチマークの結果を報告します。
論文 参考訳(メタデータ) (2023-11-07T14:00:09Z) - Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation [16.17270247327955]
本稿では,事前学習型マルチモーダルネットワークに対するシンプルでパラメータ効率の良い適応手法を提案する。
このような適応は、モダリティの欠如による性能低下を部分的に補うことができることを示す。
提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T03:04:21Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably) [75.38159612828362]
最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
論文 参考訳(メタデータ) (2022-03-23T06:21:53Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。