論文の概要: UniCon: Unidirectional Split Learning with Contrastive Loss for Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2208.11435v2
- Date: Mon, 17 Apr 2023 08:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 00:26:01.802836
- Title: UniCon: Unidirectional Split Learning with Contrastive Loss for Visual
Question Answering
- Title(参考訳): UniCon: 視覚的質問応答のための一方向分割学習
- Authors: Yuwei Sun, Hideya Ochiai
- Abstract要約: クライアントのプライバシを保ちながら分散データサイロ設定でVQAタスクに対処するUniConを提案する。
UniConは、異なるクライアントのデータ分散全体をグローバルモデルでトレーニングし、モデル共有を通じて洗練されたクロスモーダル表現を学習する。
5つの最先端VQAモデルを用いて、VQA-v2データセット上で実験を行い、UniConの有効性を実証した。
- 参考スコア(独自算出の注目度): 0.4873362301533825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) using multi-modal data facilitates real-life
applications, such as home robots and medical diagnoses. However, one
significant challenge is to design a robust learning method for various client
tasks. One critical aspect is to ensure privacy, as client data sharing is
limited due to confidentiality concerns. This work focuses on addressing the
issue of confidentiality constraints in multi-client VQA tasks and limited
labeled training data of clients. We propose the Unidirectional Split Learning
with Contrastive Loss (UniCon) method to overcome these limitations. The
proposed method trains a global model on the entire data distribution of
different clients, learning refined cross-modal representations through model
sharing. Privacy is ensured by utilizing a split learning architecture in which
a complete model is partitioned into two components for independent training.
Moreover, recent self-supervised learning techniques were found to be highly
compatible with split learning. This combination allows for rapid learning of a
classification task without labeled data. Furthermore, UniCon integrates
knowledge from various local tasks, improving knowledge sharing efficiency.
Comprehensive experiments were conducted on the VQA-v2 dataset using five
state-of-the-art VQA models, demonstrating the effectiveness of UniCon. The
best-performing model achieved a competitive accuracy of 49.89%. UniCon
provides a promising solution to tackle VQA tasks in a distributed data silo
setting while preserving client privacy.
- Abstract(参考訳): マルチモーダルデータを用いた視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。
しかし、重要な課題は、様々なクライアントタスクに対して堅牢な学習方法を設計することである。
機密性に関する懸念からクライアントデータの共有が制限されているため、プライバシーを確保することが重要な側面のひとつだ。
本研究は、マルチクライアントVQAタスクにおける機密性制約の問題と、クライアントのラベル付きトレーニングデータに対処することに焦点を当てる。
これらの制約を克服するために,一方向分割学習法(UniCon)を提案する。
提案手法は,異なるクライアントのデータ分布全体に対するグローバルモデルを訓練し,モデル共有を通じて洗練されたクロスモーダル表現を学習する。
プライバシーは、完全なモデルが独立したトレーニングのために2つのコンポーネントに分割される分割学習アーキテクチャを利用することによって保証される。
さらに,近年の自己教師型学習技術は,分割学習と高い互換性があることが判明した。
この組み合わせにより、ラベル付きデータなしで分類タスクを迅速に学習できる。
さらに、UniConは様々なローカルタスクからの知識を統合し、知識共有効率を向上させる。
5つの最先端VQAモデルを用いてVQA-v2データセットの総合的な実験を行い、UniConの有効性を実証した。
最高性能のモデルは49.89%の競合精度を達成した。
UniConは、クライアントプライバシを保持しながら、分散データサイロ設定でVQAタスクに取り組むための有望なソリューションを提供する。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - Enhancing Information Maximization with Distance-Aware Contrastive
Learning for Source-Free Cross-Domain Few-Shot Learning [55.715623885418815]
クロスドメインのFew-Shot Learningメソッドは、トレーニング前のフェーズでモデルをトレーニングするために、ソースドメインデータにアクセスする必要がある。
データプライバシやデータ送信やトレーニングコストの削減に対する懸念が高まっているため,ソースデータにアクセスせずにCDFSLソリューションを開発する必要がある。
本稿では,これらの課題に対処するための距離対応コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T12:10:24Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Multimodal Federated Learning via Contrastive Representation Ensemble [17.08211358391482]
フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。
既存のFLメソッドはすべて、モデルアグリゲーションを単一のモダリティレベルに依存している。
マルチモーダルFL(CreamFL)のためのコントラスト表現アンサンブルとアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-02-17T14:17:44Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - RobustFed: A Truth Inference Approach for Robust Federated Learning [9.316565110931743]
フェデレートラーニング(Federated Learning)は、クライアントが中央サーバのオーケストレーションの下で協調的にグローバルなモデルをトレーニングすることを可能にするフレームワークである。
統合学習における集約ステップは、中央サーバがクライアントの動作を管理することができないため、敵攻撃に対して脆弱である。
本稿では,クラウドソーシングにおける真理推論手法に着想を得た新しいロバスト集約アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-18T09:34:57Z) - Decentralized Federated Learning via Mutual Knowledge Transfer [37.5341683644709]
分散型連合学習(DFL)は、モノのインターネット(IoT)システムにおける問題です。
現地のクライアントが学習した知識を相互に転送することでモデルを融合させる相互知識伝達(Def-KT)アルゴリズムを提案します。
MNIST, Fashion-MNIST, CIFAR10データセットに対する実験により,提案アルゴリズムがベースラインDFL法を著しく上回るデータセットを明らかにした。
論文 参考訳(メタデータ) (2020-12-24T01:43:53Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。