論文の概要: RouterRetriever: Routing over a Mixture of Expert Embedding Models
- arxiv url: http://arxiv.org/abs/2409.02685v2
- Date: Wed, 26 Feb 2025 06:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:53:57.630246
- Title: RouterRetriever: Routing over a Mixture of Expert Embedding Models
- Title(参考訳): RouterRetriever: エキスパート埋め込みモデルの混合をルーティングする
- Authors: Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo,
- Abstract要約: 本稿では、ルーティング機構を用いて、ドメイン固有の専門家の混在を利用した検索モデルであるReuterRetrieverを紹介する。
RouterRetrieverは、ドメイン固有の専門的な埋め込みモデルを混在させたルーティングの利点を示す最初の研究である。
- 参考スコア(独自算出の注目度): 58.987116118425995
- License:
- Abstract: Information retrieval methods often rely on a single embedding model trained on large, general-domain datasets like MSMARCO. While this approach can produce a retriever with reasonable overall performance, they often underperform models trained on domain-specific data when testing on their respective domains. Prior work in information retrieval has tackled this through multi-task training, but the idea of routing over a mixture of domain-specific expert retrievers remains unexplored despite the popularity of such ideas in language model generation research. In this work, we introduce RouterRetriever, a retrieval model that leverages a mixture of domain-specific experts by using a routing mechanism to select the most appropriate expert for each query. RouterRetriever is lightweight and allows easy addition or removal of experts without additional training. Evaluation on the BEIR benchmark demonstrates that RouterRetriever outperforms both models trained on MSMARCO (+2.1 absolute nDCG@10) and multi-task models (+3.2). This is achieved by employing our routing mechanism, which surpasses other routing techniques (+1.8 on average) commonly used in language modeling. Furthermore, the benefit generalizes well to other datasets, even in the absence of a specific expert on the dataset. RouterRetriever is the first work to demonstrate the advantages of routing over a mixture of domain-specific expert embedding models as an alternative to a single, general-purpose embedding model, especially when retrieving from diverse, specialized domains.
- Abstract(参考訳): 情報検索手法は、MSMARCOのような大規模で汎用的なデータセットで訓練された単一の埋め込みモデルに依存することが多い。
このアプローチは、合理的な全体的なパフォーマンスを持つレトリバーを生成することができるが、各ドメインでテストする場合、ドメイン固有のデータでトレーニングされたモデルを過小評価することが多い。
情報検索における先行研究は、マルチタスクトレーニングを通じてこの問題に対処してきたが、言語モデル生成研究においてそのようなアイデアが人気であるにもかかわらず、ドメイン固有の専門家検索者の混在をルーティングするというアイデアは、まだ解明されていない。
本研究では,各クエリに最適な専門家を選択するためのルーティング機構を用いて,ドメイン固有の専門家の混在を利用した検索モデルであるReuterRetrieverを紹介する。
RouterRetrieverは軽量で、追加のトレーニングなしで専門家の追加や削除が簡単にできる。
BEIRベンチマークの評価では、ReuterRetriever は MSMARCO (+2.1 absolute nDCG@10) とマルチタスクモデル (+3.2) の両方で訓練されたモデルより優れていることが示されている。
これは、言語モデリングで一般的に使用される他のルーティング技術(平均1.8以上)を超えているルーティングメカニズムを利用することで実現される。
さらに、このメリットは、データセットに特定の専門家がいない場合でも、他のデータセットによく当てはまる。
RouterRetrieverは、単一の汎用的な埋め込みモデルの代替として、ドメイン固有の専門家が混在するモデルのルーティングの利点を示す最初の研究である。
関連論文リスト
- Exploring Domain Robust Lightweight Reward Models based on Router Mechanism [1.3624495460189863]
本稿では,ルータ機構に基づくドメイン固有方式で動作する小言語モデルの利用について検討する。
筆者らの3つのアプローチは,1)内部ルータとエキスパートをモジュール化した単一報酬モデルの構築,2)複数のドメイン固有モデルから適切な報酬モデルを選択するための外部ルータの利用,3)アダプタを用いた単一小言語モデルへの報酬モデルとルータアダプタのロードによるパラメータサイズ削減である。
論文 参考訳(メタデータ) (2024-07-24T17:25:12Z) - Deep Domain Specialisation for single-model multi-domain learning to rank [1.534667887016089]
複数のモデルをトレーニングし、メンテナンスし、更新するコストは、すべてのドメインに責任を持つ単一のモデルを持つよりも高い。
本稿では,複数のドメインをひとつのモデルに統合するディープ・ドメイン・スペシャライゼーション(DDS)のアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:19:19Z) - Learning to Route Among Specialized Experts for Zero-Shot Generalization [39.56470042680907]
我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。
パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。
特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
論文 参考訳(メタデータ) (2024-02-08T17:43:22Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。
我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。
パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文 参考訳(メタデータ) (2021-09-28T17:08:22Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Multi-Domain Adversarial Feature Generalization for Person
Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。
複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。
また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文 参考訳(メタデータ) (2020-11-25T08:03:15Z) - Improving QA Generalization by Concurrent Modeling of Multiple Biases [61.597362592536896]
既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれており、対応する評価セット上で高いパフォーマンスを達成することができる。
本稿では、トレーニングデータにおける複数のバイアスの同時モデリングにより、ドメイン内およびドメイン外両方のデータセットのパフォーマンスを改善するための一般的なフレームワークを提案する。
我々は,様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出的質問応答の枠組みを広く評価した。
論文 参考訳(メタデータ) (2020-10-07T11:18:49Z) - Domain Adaptive Ensemble Learning [141.98192460069765]
両問題に対処するため,ドメイン適応アンサンブル学習(DAEL)という統合フレームワークを提案する。
3つのマルチソースUDAデータセットと2つのDGデータセットの実験により、DAELは両方の問題、しばしば大きなマージンによって、技術の状態を改善することが示された。
論文 参考訳(メタデータ) (2020-03-16T16:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。