論文の概要: Mixture of Experts Approaches in Dense Retrieval Tasks
- arxiv url: http://arxiv.org/abs/2510.15683v1
- Date: Fri, 17 Oct 2025 14:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.652622
- Title: Mixture of Experts Approaches in Dense Retrieval Tasks
- Title(参考訳): 難易度検索課題におけるエキスパートアプローチの混合
- Authors: Effrosyni Sokli, Pranav Kasela, Georgios Peikos, Gabriella Pasi,
- Abstract要約: DRMを一般化するための最終トランスフォーマー層の後,単一のMoEブロック(SB-MoE)を提案する。
本実験は,ドメイン内の有効性とゼロショットの一般化性の両方を評価するための2つの評価設定を含む。
BERT-BaseやContrieverのような多くのパラメータを持つDRMの場合、我々のモデルは検索性能を向上させるために、より多くのトレーニングサンプルを必要とする。
- 参考スコア(独自算出の注目度): 5.1004777867113225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense Retrieval Models (DRMs) are a prominent development in Information Retrieval (IR). A key challenge with these neural Transformer-based models is that they often struggle to generalize beyond the specific tasks and domains they were trained on. To address this challenge, prior research in IR incorporated the Mixture-of-Experts (MoE) framework within each Transformer layer of a DRM, which, though effective, substantially increased the number of additional parameters. In this paper, we propose a more efficient design, which introduces a single MoE block (SB-MoE) after the final Transformer layer. To assess the retrieval effectiveness of SB-MoE, we perform an empirical evaluation across three IR tasks. Our experiments involve two evaluation setups, aiming to assess both in-domain effectiveness and the model's zero-shot generalizability. In the first setup, we fine-tune SB-MoE with four different underlying DRMs on seven IR benchmarks and evaluate them on their respective test sets. In the second setup, we fine-tune SB-MoE on MSMARCO and perform zero-shot evaluation on thirteen BEIR datasets. Additionally, we perform further experiments to analyze the model's dependency on its hyperparameters (i.e., the number of employed and activated experts) and investigate how this variation affects SB-MoE's performance. The obtained results show that SB-MoE is particularly effective for DRMs with lightweight base models, such as TinyBERT and BERT-Small, consistently exceeding standard model fine-tuning across benchmarks. For DRMs with more parameters, such as BERT-Base and Contriever, our model requires a larger number of training samples to achieve improved retrieval performance. Our code is available online at: https://github.com/FaySokli/SB-MoE.
- Abstract(参考訳): Dense Retrieval Models (DRM)は、Information Retrieval (IR)における顕著な開発である。
これらのニューラルトランスフォーマーベースのモデルにおける重要な課題は、トレーニングされた特定のタスクやドメインを超えて一般化するのに苦労することが多いことだ。
この課題に対処するため、IRにおける以前の研究では、DRMの各トランスフォーマー層にMixture-of-Experts (MoE)フレームワークが組み込まれていた。
本稿では,最終的なトランスフォーマー層の後,単一のMoEブロック(SB-MoE)を導入する,より効率的な設計を提案する。
SB-MoEの検索効率を評価するために,3つのIRタスクにまたがって実験的な評価を行った。
本実験は,ドメイン内の有効性とゼロショットの一般化性の両方を評価するための2つの評価設定を含む。
最初のセットアップでは、7つのIRベンチマークで4つの異なるDRMでSB-MoEを微調整し、それぞれのテストセットで評価する。
第2のセットアップでは、MSMARCO上でSB-MoEを微調整し、13のBEIRデータセットでゼロショット評価を行う。
さらに、モデルがハイパーパラメータに依存すること(すなわち、雇用者や活性化専門家の数)を分析し、この変動がSB-MoEの性能に与える影響について検討する。
その結果,SB-MoE は TinyBERT や BERT-Small などの軽量ベースモデルを持つ DRM に対して特に有効であり,ベンチマーク間での標準モデルの微調整を一貫して超えることがわかった。
BERT-BaseやContrieverのような多くのパラメータを持つDRMの場合、我々のモデルは検索性能を向上させるために、より多くのトレーニングサンプルを必要とする。
私たちのコードは、https://github.com/FaySokli/SB-MoE.comでオンラインで公開されています。
関連論文リスト
- From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling [66.22134521383909]
我々は、多様なMOSデータセットを優先順位比較設定に再構成する統一ベンチマークを導入する。
MOS-RMBenchを基盤として,報酬モデルのための3つのパラダイムを体系的に構築・評価する。
実験の結果,(1)スカラーモデルが最も高い総合的性能を達成し,その精度は74%を超え,(2)ほとんどのモデルでは,人間の音声よりもはるかに悪く,(3)MOSの差が非常に小さいペアで苦戦している,という結果が得られた。
実験結果から, MOS 対応 GRM は細粒度品質の識別を著しく改善し, 最も困難な場合においてスカラーモデルとのギャップを狭めることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-01T10:27:51Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - Investigating Mixture of Experts in Dense Retrieval [1.9949261242626628]
最終トランスフォーマー層の出力後,単一のMoEブロック(SB-MoE)を統合するアーキテクチャについて検討する。
MoEブロックを追加せずに4つのベンチマークコレクションに3つのDRM(TinyBERT、BERT、Contriever)を微調整します。
SB-MoEは4つのベンチマークで微調整された基礎モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-16T15:20:13Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - SwapMoE: Serving Off-the-shelf MoE-based Large Language Models with Tunable Memory Budget [20.33693233516486]
我々は,学習可能なメモリ予算を備えたMoEベースの大規模言語モデルの効率的な機能を実現するためのフレームワークであるSwapMoEを紹介する。
SwapMoEは適切な精度を維持しながらメモリフットプリントを削減できることが実験で示されている。
論文 参考訳(メタデータ) (2023-08-29T05:25:21Z) - DAIR: Data Augmented Invariant Regularization [20.364846667289374]
本稿では,データ拡張不変正規化(DAIR)を提案する。
DAIRレギュレータの特定の形式は、さまざまな設定で一貫して良好に機能することを示す。
ドメインシフトを含む複数の実世界の学習問題に適用する。
論文 参考訳(メタデータ) (2021-10-21T15:30:40Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。