Fugu-MT 論文翻訳(概要): RouterRetriever: Routing over a Mixture of Expert Embedding Models

論文の概要: RouterRetriever: Routing over a Mixture of Expert Embedding Models

arxiv url: http://arxiv.org/abs/2409.02685v2
Date: Wed, 26 Feb 2025 06:19:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:46.023651
Title: RouterRetriever: Routing over a Mixture of Expert Embedding Models
Title（参考訳）: RouterRetriever: エキスパート埋め込みモデルの混合をルーティングする
Authors: Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo,
Abstract要約: 本稿では、ルーティング機構を用いて、ドメイン固有の専門家の混在を利用した検索モデルであるReuterRetrieverを紹介する。 RouterRetrieverは、ドメイン固有の専門的な埋め込みモデルを混在させたルーティングの利点を示す最初の研究である。
参考スコア（独自算出の注目度）: 58.987116118425995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Information retrieval methods often rely on a single embedding model trained on large, general-domain datasets like MSMARCO. While this approach can produce a retriever with reasonable overall performance, they often underperform models trained on domain-specific data when testing on their respective domains. Prior work in information retrieval has tackled this through multi-task training, but the idea of routing over a mixture of domain-specific expert retrievers remains unexplored despite the popularity of such ideas in language model generation research. In this work, we introduce RouterRetriever, a retrieval model that leverages a mixture of domain-specific experts by using a routing mechanism to select the most appropriate expert for each query. RouterRetriever is lightweight and allows easy addition or removal of experts without additional training. Evaluation on the BEIR benchmark demonstrates that RouterRetriever outperforms both models trained on MSMARCO (+2.1 absolute nDCG@10) and multi-task models (+3.2). This is achieved by employing our routing mechanism, which surpasses other routing techniques (+1.8 on average) commonly used in language modeling. Furthermore, the benefit generalizes well to other datasets, even in the absence of a specific expert on the dataset. RouterRetriever is the first work to demonstrate the advantages of routing over a mixture of domain-specific expert embedding models as an alternative to a single, general-purpose embedding model, especially when retrieving from diverse, specialized domains.
Abstract（参考訳）: 情報検索手法は、MSMARCOのような大規模で汎用的なデータセットで訓練された単一の埋め込みモデルに依存することが多い。このアプローチは、合理的な全体的なパフォーマンスを持つレトリバーを生成することができるが、各ドメインでテストする場合、ドメイン固有のデータでトレーニングされたモデルを過小評価することが多い。情報検索における先行研究は、マルチタスクトレーニングを通じてこの問題に対処してきたが、言語モデル生成研究においてそのようなアイデアが人気であるにもかかわらず、ドメイン固有の専門家検索者の混在をルーティングするというアイデアは、まだ解明されていない。本研究では,各クエリに最適な専門家を選択するためのルーティング機構を用いて,ドメイン固有の専門家の混在を利用した検索モデルであるReuterRetrieverを紹介する。 RouterRetrieverは軽量で、追加のトレーニングなしで専門家の追加や削除が簡単にできる。 BEIRベンチマークの評価では、ReuterRetriever は MSMARCO (+2.1 absolute nDCG@10) とマルチタスクモデル (+3.2) の両方で訓練されたモデルより優れていることが示されている。これは、言語モデリングで一般的に使用される他のルーティング技術(平均1.8以上)を超えているルーティングメカニズムを利用することで実現される。さらに、このメリットは、データセットに特定の専門家がいない場合でも、他のデータセットによく当てはまる。 RouterRetrieverは、単一の汎用的な埋め込みモデルの代替として、ドメイン固有の専門家が混在するモデルのルーティングの利点を示す最初の研究である。

関連論文リスト

Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization [51.562474873972086]
Federated Domain Generalization (FedDG)は、異種データを持つ分散クライアントからグローバルに一般化可能なモデルを学ぶことを目的としている。近年の研究では、単一のグローバルなプロンプトを学習することで、FedDGの視覚言語モデル(VLM)を適応させる素早い学習が導入されている。本稿では,FedDGのためのパラメータフリールーティングフレームワークであるTRIPを提案する。
論文参考訳（メタデータ） (2025-04-29T11:06:03Z)
Glider: Global and Local Instruction-Driven Expert Router [83.785832410832]
モデルMoErging」手法は、保持タスクのパフォーマンスを犠牲にして、未確認タスクへの一般化を優先する。マルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。 GLIDERは、ホールドアウトタスクの強い一般化を維持しながら、ホールドイン性能を大幅に改善する。
論文参考訳（メタデータ） (2024-10-09T17:59:14Z)
Exploring Domain Robust Lightweight Reward Models based on Router Mechanism [1.3624495460189863]
本稿では,ルータ機構に基づくドメイン固有方式で動作する小言語モデルの利用について検討する。筆者らの3つのアプローチは,1)内部ルータとエキスパートをモジュール化した単一報酬モデルの構築,2)複数のドメイン固有モデルから適切な報酬モデルを選択するための外部ルータの利用,3)アダプタを用いた単一小言語モデルへの報酬モデルとルータアダプタのロードによるパラメータサイズ削減である。
論文参考訳（メタデータ） (2024-07-24T17:25:12Z)
Deep Domain Specialisation for single-model multi-domain learning to rank [1.534667887016089]
複数のモデルをトレーニングし、メンテナンスし、更新するコストは、すべてのドメインに責任を持つ単一のモデルを持つよりも高い。本稿では,複数のドメインをひとつのモデルに統合するディープ・ドメイン・スペシャライゼーション(DDS)のアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-07-01T08:19:19Z)
GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文参考訳（メタデータ） (2024-06-28T17:42:08Z)
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-06T03:06:33Z)
Learning to Route Among Specialized Experts for Zero-Shot Generalization [39.56470042680907]
我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
論文参考訳（メタデータ） (2024-02-08T17:43:22Z)
Soft Merging of Experts with Adaptive Routing [38.962451264172856]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文参考訳（メタデータ） (2023-06-06T15:04:31Z)
Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文参考訳（メタデータ） (2023-05-04T20:19:39Z)
Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文参考訳（メタデータ） (2022-09-26T23:27:51Z)
Adaptive Network Combination for Single-Image Reflection Removal: A Domain Generalization Perspective [68.37624784559728]
本稿では,ドメインの観点からSIRRモデルを学習し,課題に対処する。各ソースセットに対して、特定のSIRRモデルは、関連するリフレクションタイプのドメインエキスパートとして機能するように訓練される。あるソースセットからのイメージに対して、RTAWは、一般化能力を改善するために、他のドメインエキスパートの専門的な重みだけを予測するように訓練する。実験により、異なる最先端SIRRネットワーク上でのAdaNECの性能向上が示された。
論文参考訳（メタデータ） (2022-04-04T14:06:11Z)
An Approach for Combining Multimodal Fusion and Neural Architecture Search Applied to Knowledge Tracing [6.540879944736641]
本稿では,マルチモーダル融合とニューラルアーキテクチャ探索を組み合わせた逐次モデルに基づく最適化手法を提案する。得られたモデルが優れた性能を達成できることを示す2つの公開実データに対して,本手法の評価を行った。
論文参考訳（メタデータ） (2021-11-08T13:43:46Z)
Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文参考訳（メタデータ） (2021-09-28T17:08:22Z)
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文参考訳（メタデータ） (2021-04-26T15:55:01Z)
Multi-Domain Adversarial Feature Generalization for Person Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文参考訳（メタデータ） (2020-11-25T08:03:15Z)
Improving QA Generalization by Concurrent Modeling of Multiple Biases [61.597362592536896]
既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれており、対応する評価セット上で高いパフォーマンスを達成することができる。本稿では、トレーニングデータにおける複数のバイアスの同時モデリングにより、ドメイン内およびドメイン外両方のデータセットのパフォーマンスを改善するための一般的なフレームワークを提案する。我々は,様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出的質問応答の枠組みを広く評価した。
論文参考訳（メタデータ） (2020-10-07T11:18:49Z)
Domain Adaptive Ensemble Learning [141.98192460069765]
両問題に対処するため,ドメイン適応アンサンブル学習(DAEL)という統合フレームワークを提案する。 3つのマルチソースUDAデータセットと2つのDGデータセットの実験により、DAELは両方の問題、しばしば大きなマージンによって、技術の状態を改善することが示された。
論文参考訳（メタデータ） (2020-03-16T16:54:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。