論文の概要: Flexible and Effective Mixing of Large Language Models into a Mixture of Domain Experts
- arxiv url: http://arxiv.org/abs/2408.17280v2
- Date: Wed, 11 Sep 2024 02:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 20:02:24.948682
- Title: Flexible and Effective Mixing of Large Language Models into a Mixture of Domain Experts
- Title(参考訳): 大規模言語モデルのフレキシブルかつ効果的な混合をドメインエキスパートの混合に
- Authors: Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti,
- Abstract要約: ツールキットは、モデルまたはアダプタから混合物を作成するために使用することができる。
大規模なテストを行い、その結果のMOEのアーキテクチャを定義するためのガイダンスを提供します。
- 参考スコア(独自算出の注目度): 3.3153966919260527
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a toolkit for creating low-cost Mixture-of-Domain-Experts (MOE) from trained models. The toolkit can be used for creating a mixture from models or from adapters. We perform extensive tests and offer guidance on defining the architecture of the resulting MOE using the toolkit. A public repository is available.
- Abstract(参考訳): 訓練されたモデルから低コストのMixture-of-Domain-Experts(MOE)を作成するためのツールキットを提案する。
ツールキットは、モデルまたはアダプタから混合物を作成するために使用することができる。
我々は広範囲なテストを行い、ツールキットを用いて結果のMOEのアーキテクチャを定義するためのガイダンスを提供する。
パブリックリポジトリが利用可能である。
関連論文リスト
- VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Transformer Architecture for NetsDB [0.0]
我々はNetsDBで機能するディープラーニングモデルのためのトランスフォーマーのエンドツーエンド実装を作成します。
分散処理、デプロイメント、効率的な推論のために、当社のモデルから重みをロードします。
論文 参考訳(メタデータ) (2024-05-08T04:38:36Z) - MoPEFT: A Mixture-of-PEFTs for the Segment Anything Model [0.0]
The Mixture-of-PEFTs method (MoPEFT) is inspired by traditional Mixture-of-Experts (MoE) methodologies and use for fine-tuning SAM。
我々のMoPEFTフレームワークは3つの異なるPEFT技法をサブモジュールとして組み込んでおり、与えられたデータタスク設定に適したものを動的に起動する。
我々は,Segment Anything Model を用いて提案手法を検証し,MoPEFT が MESS ベンチマークにおける他の微調整手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-05-01T03:15:28Z) - Mixture-Models: a one-stop Python Library for Model-based Clustering
using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。
様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。
このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文 参考訳(メタデータ) (2024-02-08T19:34:24Z) - ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - ModelScope-Agent: Building Your Customizable Agent System with
Open-source Large Language Models [74.64651681052628]
本稿では,オープンソースのLCMをコントローラとする実世界のアプリケーションのためのカスタマイズ可能なエージェントフレームワークであるModelScope-Agentを紹介する。
ユーザフレンドリーなシステムライブラリを提供し、カスタマイズ可能なエンジン設計により、複数のオープンソースLLMでモデルトレーニングをサポートする。
ツール使用データ収集、ツール検索、ツール登録、メモリ制御、カスタマイズされたモデルトレーニング、評価にまたがる包括的なフレームワークが提案されている。
論文 参考訳(メタデータ) (2023-09-02T16:50:30Z) - DEMix Layers: Disentangling Domains for Modular Language Modeling [92.57761975953453]
入力テキストのドメイン上で言語モデル(LM)を条件付けることができる新しいドメインエキスパート混合層(DEMix)を導入する。
DEMixレイヤは専門的なフィードフォワードネットワークの集合であり、それぞれがドメインに特化している。
実験によると、DEMixレイヤはテスト時間の複雑度を低減し、トレーニングの効率を向上し、オーバーヘッドの少ない迅速な適応を可能にする。
論文 参考訳(メタデータ) (2021-08-11T05:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。