論文の概要: RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models
- arxiv url: http://arxiv.org/abs/2409.19886v1
- Date: Mon, 30 Sep 2024 02:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:45.103840
- Title: RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models
- Title(参考訳): RouterDC:大規模言語モデル構築のためのデュアルコントラスト学習によるクエリベースルータ
- Authors: Shuhao Chen, Weisen Jiang, Baijiong Lin, James T. Kwok, Yu Zhang,
- Abstract要約: この結果から,Dual Contrastive Learning (DC) による問合せベースのルータが大規模言語モデル (LLM) の組み立てに有効であることを示す。
DC は LLM を組み立てるのに有効であり、個々のトップパフォーマンスの LLM と、分布内および分布外の両方のタスクにおける既存のルーティング方法に大きく勝る。
- 参考スコア(独自算出の注目度): 24.113223576205932
- License:
- Abstract: Recent works show that assembling multiple off-the-shelf large language models (LLMs) can harness their complementary abilities. To achieve this, routing is a promising method, which learns a router to select the most suitable LLM for each query. However, existing routing models are ineffective when multiple LLMs perform well for a query. To address this problem, in this paper, we propose a method called query-based Router by Dual Contrastive learning (RouterDC). The RouterDC model consists of an encoder and LLM embeddings, and we propose two contrastive learning losses to train the RouterDC model. Experimental results show that RouterDC is effective in assembling LLMs and largely outperforms individual top-performing LLMs as well as existing routing methods on both in-distribution (+2.76\%) and out-of-distribution (+1.90\%) tasks. Source code is available at https://github.com/shuhao02/RouterDC.
- Abstract(参考訳): 近年の研究では,複数の既成の大規模言語モデル (LLM) を組み立てることによって,それらの相補的能力を活用できることが示されている。
これを実現するために、ルーティングは有望な方法であり、ルータを学習し、クエリ毎に最も適したLSMを選択する。
しかし、複数のLLMがクエリに対して良好に動作する場合、既存のルーティングモデルは効果がない。
そこで本稿では,Dual Contrastive Learning (RouterDC) を用いたクエリベースルータを提案する。
RouterDC モデルはエンコーダと LLM 埋め込みで構成されており,LuterDC モデルを訓練するための2つの対照的な学習損失を提案する。
実験結果から,RuterDC は LLM の組立に有効であり,各トップパフォーマンス LLM の組立に優れており,既存の配電系統(+2.76 %) と配電系統(+1.90 %) の配電系統(+1.90 %) にも優れていた。
ソースコードはhttps://github.com/shuhao02/RouterDCで入手できる。
関連論文リスト
- Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。
これにより、LDMがデータのみのソースからの命令を受け取り、作用するインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。
我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。
このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。
モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。
ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文 参考訳(メタデータ) (2024-05-18T03:02:23Z) - RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:59:04Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - HyperRouter: Towards Efficient Training and Inference of Sparse Mixture
of Experts [34.08858035082419]
この研究はHyperRoutを導入し、固定されたハイパーネットワークとトレーニング可能な埋め込みを通じてルータのパラメータを動的に生成する。
幅広いタスクにわたる実験は、HyperRoutの優れたパフォーマンスと効率性を示す。
論文 参考訳(メタデータ) (2023-12-12T07:40:23Z) - Many or Few Samples? Comparing Transfer, Contrastive and Meta-Learning
in Encrypted Traffic Classification [68.19713459228369]
我々は、トランスファーラーニング、メタラーニング、コントラストラーニングを、参照機械学習(ML)ツリーベースおよびモノリシックDLモデルと比較する。
i) 大規模なデータセットを用いて,より一般的な表現を得られること,(ii) コントラスト学習が最良の手法であることを示している。
MLツリーベースでは大きなタスクは処理できないが、学習した表現を再利用することで、小さなタスクにも適合するが、DLメソッドはツリーベースモデルのパフォーマンスにも到達している。
論文 参考訳(メタデータ) (2023-05-21T11:20:49Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Event Classification with Multi-step Machine Learning [0.0]
マルチステップ機械学習(ML)は、既知の中間推論目標を持つ接続されたサブタスクに編成される。
分散アーキテクチャサーチ(DARTS)と単一パスワンショットNAS(SPOS-NAS)をテストし、損失関数の構築を改善し、すべてのMLモデルをスムーズに学習する。
DARTSとSPOS-NASを最適化と選択、多段階機械学習システムとの接続として使用することにより、(1)高パフォーマンスモデルの組み合わせを迅速かつうまく選択でき、(2)グリッドサーチなどのベースラインアルゴリズムと整合性があることがわかった。
論文 参考訳(メタデータ) (2021-06-04T07:22:05Z) - Boosting Share Routing for Multi-task Learning [0.12891210250935145]
マルチタスク学習(MTL)は、マルチタスク監視信号に含まれる知識をフル活用して、全体的なパフォーマンスを向上させることを目的としている。
複数のタスクの知識を適切に共有する方法は、MTLにとってオープンな問題である。
本稿では,MTNAS(Multi-Task Neural Architecture Search)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-01T12:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。