Fugu-MT 論文翻訳(概要): Exploring Training on Heterogeneous Data with Mixture of Low-rank Adapters

論文の概要: Exploring Training on Heterogeneous Data with Mixture of Low-rank Adapters

arxiv url: http://arxiv.org/abs/2406.09679v1
Date: Fri, 14 Jun 2024 03:04:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 15:13:35.136908
Title: Exploring Training on Heterogeneous Data with Mixture of Low-rank Adapters
Title（参考訳）: 低ランク適応器の混合による異種データの探索
Authors: Yuhang Zhou, Zihua Zhao, Haolin Li, Siyuan Du, Jiangchao Yao, Ya Zhang, Yanfeng Wang,
Abstract要約: 我々はMixture of Low-rank Adapters (MoLA)を活用し、異種データトレーニングにおける競合を軽減する。 MoLA-Grad と MoLA-SJ の2つの変種を導入し,目標認識シナリオと目標認識シナリオをそれぞれ扱う。後者は、新しいTask-wise Decorrelation (TwD)を使用して、同種タスクへのアダプタの指向的な重み付けを学習するためにルータを介入する。
参考スコア（独自算出の注目度）: 36.09178055533487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training a unified model to take multiple targets into account is a trend towards artificial general intelligence. However, how to efficiently mitigate the training conflicts among heterogeneous data collected from different domains or tasks remains under-explored. In this study, we explore to leverage Mixture of Low-rank Adapters (MoLA) to mitigate conflicts in heterogeneous data training, which requires to jointly train the multiple low-rank adapters and their shared backbone. Specifically, we introduce two variants of MoLA, namely, MoLA-Grad and MoLA-Router, to respectively handle the target-aware and target-agnostic scenarios during inference. The former uses task identifiers to assign personalized low-rank adapters to each task, disentangling task-specific knowledge towards their adapters, thereby mitigating heterogeneity conflicts. The latter uses a novel Task-wise Decorrelation (TwD) loss to intervene the router to learn oriented weight combinations of adapters to homogeneous tasks, achieving similar effects. We conduct comprehensive experiments to verify the superiority of MoLA over previous state-of-the-art methods and present in-depth analysis on its working mechanism. Source code is available at: https://github.com/MediaBrain-SJTU/MoLA
Abstract（参考訳）: 複数のターゲットを考慮に入れた統一モデルのトレーニングは、人工知能のトレンドである。しかし、異なるドメインやタスクから収集された異種データ間のトレーニング競合を効果的に緩和する方法は、未調査のままである。本研究では,Mixture of Low-rank Adapters (MoLA)を用いて異種データトレーニングにおける競合を軽減し,複数の低ランクアダプタと共有バックボーンを共同でトレーニングする必要があることを検討する。具体的には、MoLAの2つの変種、すなわちMoLA-GradとMoLA-Routerを導入し、推論中のターゲット認識シナリオとターゲット認識シナリオをそれぞれ扱う。前者はタスク識別子を使用して、各タスクにパーソナライズされた低ランクのアダプタを割り当て、タスク固有の知識をアダプタに切り離し、不均一な競合を緩和する。後者は、新しいTask-wise Decorrelation (TwD)損失を使用して、同質なタスクに対するアダプタの指向的な重み付けを学習するためにルータを介入し、同様の効果を達成する。我々は,従来の最先端手法よりもMoLAの方が優れていることを検証するための総合的な実験を行い,その動作機構を詳細に解析する。ソースコードは、https://github.com/MediaBrain-SJTU/MoLAで入手できる。

関連論文リスト

MoTE: Mixture of Task-specific Experts for Pre-Trained ModelBased Class-incremental Learning [39.892628170627496]
クラスインクリメンタルラーニング(CIL)では、ストリーミングデータから新たな知識を継続的に取得するために、ディープラーニングモデルが必要である。プロンプトベースのアプローチはプロンプトオーバーライトに悩まされ、アダプタベースの手法はタスク間の次元的ミスアライメントのような課題に直面している。本稿では,不整合出力次元による誤判定を効果的に軽減するタスク特化専門家(MoTE)フレームワークの混合を提案する。
論文参考訳（メタデータ） (2025-05-21T03:06:10Z)
Generative Trajectory Stitching through Diffusion Composition [29.997765496994457]
CompDiffuserは、これまで見てきたタスクから短い軌跡を合成的に縫い合わせることで、新しいタスクを解決できる新しい生成的アプローチである。我々は,さまざまな環境サイズ,エージェント状態次元,軌道タイプ,データ品質のトレーニングなど,さまざまな課題のベンチマークタスクについて実験を行い,CompDiffuserが既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-03-07T05:22:52Z)
Ensembles of Low-Rank Expert Adapters [9.599957499802446]
本稿では,多種多様なタスクを扱うモデルの能力を向上させるために,低ランクエキスパートアダプタ(ELREA)フレームワークの組み立てを提案する。 ELREAは、トレーニング指示をその勾配方向に基づいてクラスタ化し、さまざまな専門分野を表現している。推論中、ELREAは、入力データの勾配とトレーニングクラスタとの類似性に基づいて、最も関連する専門家アダプタからの予測を組み合わせる。
論文参考訳（メタデータ） (2025-01-31T18:07:21Z)
ATLAS: Adapter-Based Multi-Modal Continual Learning with a Two-Stage Learning Strategy [12.150065431702055]
本稿では,経験ベース学習と新規知識拡張からなるマルチモーダル連続学習手法を提案する。提案手法は,従来のタスクを忘れることによる負の影響を最小限に抑えつつ,上流での表現の分布を拡大する。
論文参考訳（メタデータ） (2024-10-14T13:29:42Z)
Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning [55.384428765798496]
新しいデータは、Eコマースプラットフォームレビューのような、長期にわたる流通を示す。これは、忘れずに不均衡なデータを連続的なモデルで学習する必要がある。 LTCILの例として,AdaPtive Adapter Routing (APART) を提案する。
論文参考訳（メタデータ） (2024-09-11T17:52:00Z)
Combining Denoising Autoencoders with Contrastive Learning to fine-tune Transformer Models [0.0]
本研究は,分類タスクのベースモデルを調整するための3段階手法を提案する。我々は,DAE(Denoising Autoencoder)を用いたさらなるトレーニングを行うことで,モデルの信号をデータ配信に適用する。さらに、教師付きコントラスト学習のための新しいデータ拡張手法を導入し、不均衡なデータセットを修正する。
論文参考訳（メタデータ） (2024-05-23T11:08:35Z)
Federated Learning for Misbehaviour Detection with Variational Autoencoders and Gaussian Mixture Models [0.2999888908665658]
Federated Learning (FL)は、機械学習(ML)モデルを協調的にトレーニングするための魅力的なアプローチになっている。本研究は、車載環境における潜在的な不適切な行動を特定するための、新しい教師なしFLアプローチを提案する。当社は、モデルアグリゲーションの目的のために、パブリッククラウドサービスのコンピューティング能力を活用しています。
論文参考訳（メタデータ） (2024-05-16T08:49:50Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Efficient Adaptive Human-Object Interaction Detection with Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。 ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文参考訳（メタデータ） (2023-09-07T13:10:06Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Adaptive Parameterization of Deep Learning Models for Federated Learning [85.82002651944254]
Federated Learningは、分散形式でディープニューラルネットワークをトレーニングする方法を提供する。トレーニング中にモデルパラメータや勾配を定期的に交換する必要があるため、通信オーバーヘッドが発生する。本稿では,フェデレートラーニングのための並列適応器を提案する。
論文参考訳（メタデータ） (2023-02-06T17:30:33Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文参考訳（メタデータ） (2020-11-09T21:30:31Z)
Imbalanced Data Learning by Minority Class Augmentation using Capsule Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文参考訳（メタデータ） (2020-04-05T12:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。