論文の概要: Single-branch Network for Multimodal Training
- arxiv url: http://arxiv.org/abs/2303.06129v1
- Date: Fri, 10 Mar 2023 18:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 13:57:24.094560
- Title: Single-branch Network for Multimodal Training
- Title(参考訳): マルチモーダルトレーニングのためのシングルブランチネットワーク
- Authors: Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Muhammad Zaigham
Zaheer, Karthik Nandakumar, Muhammad Haroon Yousaf, Arif Mahmood
- Abstract要約: 本稿では,ネットワークを変更することなく,一助詞の識別表現とマルチモーダルタスクを学習できる新しい単一ブランチネットワークを提案する。
本提案手法は,クロスモーダル検証と各種損失定式化タスクの整合性に挑戦するマルチモーダル問題(対面音声アソシエーション)に基づいて,提案したシングルブランチネットワークの評価を行う。
- 参考スコア(独自算出の注目度): 19.690844799632327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid growth of social media platforms, users are sharing billions
of multimedia posts containing audio, images, and text. Researchers have
focused on building autonomous systems capable of processing such multimedia
data to solve challenging multimodal tasks including cross-modal retrieval,
matching, and verification. Existing works use separate networks to extract
embeddings of each modality to bridge the gap between them. The modular
structure of their branched networks is fundamental in creating numerous
multimodal applications and has become a defacto standard to handle multiple
modalities. In contrast, we propose a novel single-branch network capable of
learning discriminative representation of unimodal as well as multimodal tasks
without changing the network. An important feature of our single-branch network
is that it can be trained either using single or multiple modalities without
sacrificing performance. We evaluated our proposed single-branch network on the
challenging multimodal problem (face-voice association) for cross-modal
verification and matching tasks with various loss formulations. Experimental
results demonstrate the superiority of our proposed single-branch network over
the existing methods in a wide range of experiments. Code:
https://github.com/msaadsaeed/SBNet
- Abstract(参考訳): ソーシャルメディアプラットフォームの急速な成長に伴い、ユーザーはオーディオ、画像、テキストを含む何十億ものマルチメディア投稿を共有している。
研究者は、マルチメディアデータを処理して、クロスモーダル検索、マッチング、検証といった課題を解決できる自律システムの構築に注力してきた。
既存の作業では、それぞれのモダリティの埋め込みを抽出するために別々のネットワークを使用している。
分岐ネットワークのモジュラー構造は、多数のマルチモーダルアプリケーションを作成する上で基本であり、複数のモダリティを扱うデファクトスタンダードとなっている。
対照的に,ユニモーダルの識別表現とマルチモーダルタスクをネットワークを変更することなく学習できる,新しいシングルブランチネットワークを提案する。
シングルブランチネットワークの重要な特徴は、パフォーマンスを犠牲にすることなく、シングルまたは複数モードでトレーニングできることです。
提案したシングルブランチネットワークを,多モーダルな複数モーダル問題(対面音声アソシエーション)の相互検証と各種損失定式化によるタスクの整合性評価を行った。
実験結果から,提案したシングルブランチネットワークが既存手法よりも幅広い実験で優れていることが示された。
コード:https://github.com/msaadsaeed/SBNet
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning [16.96824902454355]
複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。
このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。
複数のタスクラベルを付加したサンプルを含む新しいベンチマークMMUDを提案する。
複数のタスクを合理化して効率的に同時に処理できることを実証する。
論文 参考訳(メタデータ) (2024-08-06T07:19:51Z) - OmniVec: Learning robust representations with cross modal sharing [28.023214572340336]
複数のタスクを複数のモードで,統一されたアーキテクチャで学習する手法を提案する。
提案するネットワークはタスク固有エンコーダ(中央の共通トランク)とタスク固有予測ヘッドで構成される。
私たちは、視覚、オーディオ、テキスト、3Dなどの主要なモダリティでネットワークをトレーニングし、22ドルの多様性と挑戦的な公開ベンチマークの結果を報告します。
論文 参考訳(メタデータ) (2023-11-07T14:00:09Z) - Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation [16.17270247327955]
本稿では,事前学習型マルチモーダルネットワークに対するシンプルでパラメータ効率の良い適応手法を提案する。
このような適応は、モダリティの欠如による性能低下を部分的に補うことができることを示す。
提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T03:04:21Z) - Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably) [75.38159612828362]
最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
論文 参考訳(メタデータ) (2022-03-23T06:21:53Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。