論文の概要: Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
- arxiv url: http://arxiv.org/abs/2410.10814v2
- Date: Wed, 16 Oct 2024 02:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 19:24:58.940390
- Title: Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
- Title(参考訳): LLMのミキサー・オブ・エクササイズ(動画あり)
- Authors: Ziyue Li, Tianyi Zhou,
- Abstract要約: 大規模言語モデル(LLM)は生成タスクに優れ、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。
我々の研究は、MoE LLMのエキスパートルータが、様々な組込みタスクに対して有望な性能を持つ既製の組込みモデルとして機能できることを示唆している。
- 参考スコア(独自算出の注目度): 21.59456761618456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) excel on generation tasks, their decoder-only architecture often limits their potential as embedding models if no further representation finetuning is applied. Does this contradict their claim of generalists? To answer the question, we take a closer look at Mixture-of-Experts (MoE) LLMs. Our study shows that the expert routers in MoE LLMs can serve as an off-the-shelf embedding model with promising performance on a diverse class of embedding-focused tasks, without requiring any finetuning. Moreover, our extensive analysis shows that the MoE routing weights (RW) is complementary to the hidden state (HS) of LLMs, a widely-used embedding. Compared to HS, we find that RW is more robust to the choice of prompts and focuses on high-level semantics. Motivated by the analysis, we propose MoEE combining RW and HS, which achieves better performance than using either separately. Our exploration of their combination and prompting strategy shed several novel insights, e.g., a weighted sum of RW and HS similarities outperforms the similarity on their concatenation. Our experiments are conducted on 6 embedding tasks with 20 datasets from the Massive Text Embedding Benchmark (MTEB). The results demonstrate the significant improvement brought by MoEE to LLM-based embedding without further finetuning.
- Abstract(参考訳): 大きな言語モデル(LLM)は生成タスクに優れるが、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。
これは一般論者の主張と矛盾するのだろうか?
この疑問に答えるために、Mixture-of-Experts (MoE) LLMsについて詳しく調べる。
我々の研究は、MoE LLMのエキスパートルータが、様々な種類の埋め込みタスクにおいて、微調整を必要とせず、有望な性能を持つ既製の埋め込みモデルとして機能できることを示唆している。
さらに, 広範に解析した結果, MoEルーティングウェイト (RW) は LLM の隠れ状態 (HS) と相補的であることがわかった。
HSと比較して、RWはプロンプトの選択に対してより堅牢であり、ハイレベルなセマンティクスにフォーカスしている。
そこで本研究では,RWとHSを組み合わせたMoEEを提案する。
RWとHSの類似点の重み付き和は、それらの結合における類似点よりも優れています。
MTEB(Massive Text Embedding Benchmark)の20個のデータセットを用いた6つの埋め込みタスクについて実験を行った。
以上の結果から, さらなる微調整を伴わずに, MoEE から LLM ベースの埋め込みへの大幅な改善が示された。
関連論文リスト
- Large Multimodal Models as General In-Context Classifiers [73.11242790834383]
本稿では,この回答がLMMの重要な能力,すなわちコンテキスト内学習を見落としていることを論じる。
我々は、クローズドワールド分類のための多様なデータセットに関する最先端のLMMをベンチマークし、そのゼロショット性能はCLIPよりも低いが、いくつかのインコンテキスト例を持つLMMは、キャッシュベースのアダプタと対照的なVLMをマッチまたは超える可能性があることを発見した。
この分析をオープンワールド設定に拡張し,LMMの生成特性をタスクに適したものにする。
論文 参考訳(メタデータ) (2026-02-26T17:08:18Z) - RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval [2.2125276321198677]
マルチモーダル情報検索(MMIR)は、テキストや画像、あるいは混合クエリや候補を扱う際の柔軟性に注目されている。
近年のマルチモーダル大言語モデル(MLLM)のブレークスルーにより,MLLMの知識を対照的な微調整フレームワークに組み込むことで,MMIR性能が向上している。
本稿では,MMIRのためのMLLMをトレーニングおよびデータフリーでクエリする新しいフレームワークであるRetLLMを紹介する。
論文 参考訳(メタデータ) (2026-02-25T10:31:32Z) - AR-MAP: Are Autoregressive Large Language Models Implicit Teachers for Diffusion Large Language Models? [58.52365018076441]
拡散大言語モデル(DLLM)は自己回帰モデルに代わる強力な代替手段として登場した。
エビデンス・ロウアー・バウンド(ELBO)による推定結果から,DLLMの選好アライメントは依然として困難である。
本稿では,選択整合型自己回帰LDMを暗黙の教師として活用し,分散Mアライメントのための新しい伝達学習フレームワークであるAR-MAPを提案する。
論文 参考訳(メタデータ) (2026-02-02T14:48:40Z) - ReMatch: Boosting Representation through Matching for Multimodal Retrieval [29.610030065465793]
ReMatchはマルチモーダル検索にMLLMの生成強度を利用するフレームワークである。
組込みMLLMをチャット形式の生成マッチングステージで訓練する。
実験では, 5つのデータセットに対して, 特に強いゼロショット一般化結果を示した。
論文 参考訳(メタデータ) (2025-11-24T16:28:49Z) - Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs [24.791817951102487]
ルーティング重みの多様体をタスク埋め込みの多様体と整合させることで、このギャップを効果的に軽減できることを示す。
実験では,RoMAを用いてOLMoE,DeepSeekMoE,Qwen3-MoEのルータを微調整する。
論文 参考訳(メタデータ) (2025-11-10T18:59:53Z) - Think Then Embed: Generative Context Improves Multimodal Embedding [51.76690812535934]
本稿では,ユニバーサル・マルチモーダル・エンベディング (UME) のためのThink-Then-Embed (TTE) フレームワークを提案する。
強力なMLLM推論器を利用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回った。
論文 参考訳(メタデータ) (2025-10-06T16:53:56Z) - LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。
In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。
本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文 参考訳(メタデータ) (2025-04-21T11:11:07Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。
提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。
MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文 参考訳(メタデータ) (2024-09-24T03:30:19Z) - DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。