Fugu-MT 論文翻訳(概要): Bidirectional Contrastive Split Learning for Visual Question Answering

論文の概要: Bidirectional Contrastive Split Learning for Visual Question Answering

arxiv url: http://arxiv.org/abs/2208.11435v3
Date: Thu, 3 Aug 2023 04:28:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-04 17:35:07.784496
Title: Bidirectional Contrastive Split Learning for Visual Question Answering
Title（参考訳）: 視覚質問応答のための双方向コントラスト分割学習
Authors: Yuwei Sun, Hideya Ochiai
Abstract要約: マルチモーダルデータに基づく視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。ひとつの課題は、さまざまなクライアントモデルのための堅牢な分散学習フレームワークを開発することです。本稿では,分散化されたクライアントのデータ分散全体に対して,グローバルなマルチモーダルモデルをトレーニングするための双方向コントラスト分割学習(Bidirectional Contrastive Split Learning, BiCSL)を提案する。
参考スコア（独自算出の注目度）: 0.4873362301533825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Question Answering (VQA) based on multi-modal data facilitates real-life applications such as home robots and medical diagnoses. One significant challenge is to devise a robust decentralized learning framework for various client models where centralized data collection is refrained due to confidentiality concerns. This work aims to tackle privacy-preserving VQA by decoupling a multi-modal model into representation modules and a contrastive module and leveraging inter-module gradients sharing and inter-client weight sharing. To this end, we propose Bidirectional Contrastive Split Learning (BiCSL) to train a global multi-modal model on the entire data distribution of decentralized clients. We employ the contrastive loss that enables a more efficient self-supervised learning of decentralized modules. Comprehensive experiments are conducted on the VQA-v2 dataset based on five SOTA VQA models, demonstrating the effectiveness of the proposed method. Furthermore, we inspect BiCSL's robustness against a dual-key backdoor attack on VQA. Consequently, BiCSL shows much better robustness to the multi-modal adversarial attack compared to the centralized learning method, which provides a promising approach to decentralized multi-modal learning.
Abstract（参考訳）: マルチモーダルデータに基づく視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。重要な課題のひとつは、機密性の懸念から集中的なデータ収集を控えるさまざまなクライアントモデルに対して、堅牢な分散学習フレームワークを開発することだ。本研究の目的は,マルチモーダルモデルを表現モジュールとコントラストモジュールに分離し,モジュール間勾配の共有とクライアント間重量共有を活用することにより,プライバシ保護VQAに取り組むことである。そこで本研究では,分散化クライアントのデータ分布全体に対するグローバルマルチモーダルモデルを学習するために,双方向のコントラストスプリット学習(bicsl)を提案する。我々は、分散モジュールのより効率的な自己教師付き学習を可能にする対照的な損失を用いる。 5つのSOTA VQAモデルに基づくVQA-v2データセットの総合実験を行い,提案手法の有効性を実証した。さらに,VQAに対するデュアルキーバックドア攻撃に対するBiCSLの堅牢性についても検討した。その結果,BiCSLは,分散型マルチモーダル学習に対して有望なアプローチを提供する集中型学習法に比べて,マルチモーダル攻撃に対するロバスト性が高いことがわかった。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。 Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文参考訳（メタデータ） (2024-11-11T07:36:19Z)
Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。 FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-06-16T19:18:06Z)
Enhancing Information Maximization with Distance-Aware Contrastive Learning for Source-Free Cross-Domain Few-Shot Learning [55.715623885418815]
クロスドメインのFew-Shot Learningメソッドは、トレーニング前のフェーズでモデルをトレーニングするために、ソースドメインデータにアクセスする必要がある。データプライバシやデータ送信やトレーニングコストの削減に対する懸念が高まっているため,ソースデータにアクセスせずにCDFSLソリューションを開発する必要がある。本稿では,これらの課題に対処するための距離対応コントラスト学習手法を提案する。
論文参考訳（メタデータ） (2024-03-04T12:10:24Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文参考訳（メタデータ） (2023-03-27T07:07:33Z)
Multimodal Federated Learning via Contrastive Representation Ensemble [17.08211358391482]
フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。既存のFLメソッドはすべて、モデルアグリゲーションを単一のモダリティレベルに依存している。マルチモーダルFL(CreamFL)のためのコントラスト表現アンサンブルとアグリゲーションを提案する。
論文参考訳（メタデータ） (2023-02-17T14:17:44Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。 FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。 SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-11-20T10:49:22Z)
RobustFed: A Truth Inference Approach for Robust Federated Learning [9.316565110931743]
フェデレートラーニング(Federated Learning)は、クライアントが中央サーバのオーケストレーションの下で協調的にグローバルなモデルをトレーニングすることを可能にするフレームワークである。統合学習における集約ステップは、中央サーバがクライアントの動作を管理することができないため、敵攻撃に対して脆弱である。本稿では,クラウドソーシングにおける真理推論手法に着想を得た新しいロバスト集約アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-18T09:34:57Z)
Decentralized Federated Learning via Mutual Knowledge Transfer [37.5341683644709]
分散型連合学習(DFL)は、モノのインターネット(IoT)システムにおける問題です。現地のクライアントが学習した知識を相互に転送することでモデルを融合させる相互知識伝達(Def-KT)アルゴリズムを提案します。 MNIST, Fashion-MNIST, CIFAR10データセットに対する実験により,提案アルゴリズムがベースラインDFL法を著しく上回るデータセットを明らかにした。
論文参考訳（メタデータ） (2020-12-24T01:43:53Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。