Fugu-MT 論文翻訳(概要): Single-branch Network for Multimodal Training

論文の概要: Single-branch Network for Multimodal Training

arxiv url: http://arxiv.org/abs/2303.06129v1
Date: Fri, 10 Mar 2023 18:48:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-13 13:57:24.094560
Title: Single-branch Network for Multimodal Training
Title（参考訳）: マルチモーダルトレーニングのためのシングルブランチネットワーク
Authors: Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Muhammad Zaigham Zaheer, Karthik Nandakumar, Muhammad Haroon Yousaf, Arif Mahmood
Abstract要約: 本稿では,ネットワークを変更することなく,一助詞の識別表現とマルチモーダルタスクを学習できる新しい単一ブランチネットワークを提案する。本提案手法は,クロスモーダル検証と各種損失定式化タスクの整合性に挑戦するマルチモーダル問題(対面音声アソシエーション)に基づいて,提案したシングルブランチネットワークの評価を行う。
参考スコア（独自算出の注目度）: 19.690844799632327
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid growth of social media platforms, users are sharing billions of multimedia posts containing audio, images, and text. Researchers have focused on building autonomous systems capable of processing such multimedia data to solve challenging multimodal tasks including cross-modal retrieval, matching, and verification. Existing works use separate networks to extract embeddings of each modality to bridge the gap between them. The modular structure of their branched networks is fundamental in creating numerous multimodal applications and has become a defacto standard to handle multiple modalities. In contrast, we propose a novel single-branch network capable of learning discriminative representation of unimodal as well as multimodal tasks without changing the network. An important feature of our single-branch network is that it can be trained either using single or multiple modalities without sacrificing performance. We evaluated our proposed single-branch network on the challenging multimodal problem (face-voice association) for cross-modal verification and matching tasks with various loss formulations. Experimental results demonstrate the superiority of our proposed single-branch network over the existing methods in a wide range of experiments. Code: https://github.com/msaadsaeed/SBNet
Abstract（参考訳）: ソーシャルメディアプラットフォームの急速な成長に伴い、ユーザーはオーディオ、画像、テキストを含む何十億ものマルチメディア投稿を共有している。研究者は、マルチメディアデータを処理して、クロスモーダル検索、マッチング、検証といった課題を解決できる自律システムの構築に注力してきた。既存の作業では、それぞれのモダリティの埋め込みを抽出するために別々のネットワークを使用している。分岐ネットワークのモジュラー構造は、多数のマルチモーダルアプリケーションを作成する上で基本であり、複数のモダリティを扱うデファクトスタンダードとなっている。対照的に,ユニモーダルの識別表現とマルチモーダルタスクをネットワークを変更することなく学習できる,新しいシングルブランチネットワークを提案する。シングルブランチネットワークの重要な特徴は、パフォーマンスを犠牲にすることなく、シングルまたは複数モードでトレーニングできることです。提案したシングルブランチネットワークを,多モーダルな複数モーダル問題(対面音声アソシエーション)の相互検証と各種損失定式化によるタスクの整合性評価を行った。実験結果から,提案したシングルブランチネットワークが既存手法よりも幅広い実験で優れていることが示された。コード:https://github.com/msaadsaeed/SBNet

関連論文リスト

M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving [48.17490295484055]
M3Netは、自動運転の検知、セグメンテーション、および3D占有率予測に同時に取り組む新しいネットワークである。 M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
論文参考訳（メタデータ） (2025-03-23T15:08:09Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning [16.96824902454355]
複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。複数のタスクラベルを付加したサンプルを含む新しいベンチマークMMUDを提案する。複数のタスクを合理化して効率的に同時に処理できることを実証する。
論文参考訳（メタデータ） (2024-08-06T07:19:51Z)
Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文参考訳（メタデータ） (2024-03-11T01:07:36Z)
OmniVec: Learning robust representations with cross modal sharing [28.023214572340336]
複数のタスクを複数のモードで,統一されたアーキテクチャで学習する手法を提案する。提案するネットワークはタスク固有エンコーダ(中央の共通トランク)とタスク固有予測ヘッドで構成される。私たちは、視覚、オーディオ、テキスト、3Dなどの主要なモダリティでネットワークをトレーニングし、22ドルの多様性と挑戦的な公開ベンチマークの結果を報告します。
論文参考訳（メタデータ） (2023-11-07T14:00:09Z)
Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation [16.17270247327955]
本稿では,事前学習型マルチモーダルネットワークに対するシンプルでパラメータ効率の良い適応手法を提案する。このような適応は、モダリティの欠如による性能低下を部分的に補うことができることを示す。提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-06T03:04:21Z)
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文参考訳（メタデータ） (2022-06-16T07:47:57Z)
Modality Competition: What Makes Joint Training of Multi-modal Network Fail in Deep Learning? (Provably) [75.38159612828362]
最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
論文参考訳（メタデータ） (2022-03-23T06:21:53Z)
Channel Exchanging Networks for Multimodal and Multitask Dense Image Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。 CENは異なるモダリティのワーク間でチャネルを動的に交換する。濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文参考訳（メタデータ） (2021-12-04T05:47:54Z)
Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文参考訳（メタデータ） (2021-12-01T19:01:26Z)
Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文参考訳（メタデータ） (2021-09-15T21:19:11Z)
Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文参考訳（メタデータ） (2020-04-25T07:00:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。