論文の概要: Beyond instruction-conditioning, MoTE: Mixture of Task Experts for Multi-task Embedding Models
- arxiv url: http://arxiv.org/abs/2506.17781v1
- Date: Sat, 21 Jun 2025 18:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.580945
- Title: Beyond instruction-conditioning, MoTE: Mixture of Task Experts for Multi-task Embedding Models
- Title(参考訳): MoTE:マルチタスク埋め込みモデルのためのタスクエキスパートの混合
- Authors: Miguel Romero, Shuoyang Ding, Corey D. Barret, Georgiana Dinu, George Karypis,
- Abstract要約: 本研究では,Mixture of Task Experts (MoTE) トランスフォーマーブロックを導入し,特殊な埋め込みを生成するモデル能力を向上する。
MoTEは、検索データセットで64%高いパフォーマンス向上と、すべてのデータセットで43%高いパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 24.088609839813945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense embeddings are fundamental to modern machine learning systems, powering Retrieval-Augmented Generation (RAG), information retrieval, and representation learning. While instruction-conditioning has become the dominant approach for embedding specialization, its direct application to low-capacity models imposes fundamental representational constraints that limit the performance gains derived from specialization. In this paper, we analyze these limitations and introduce the Mixture of Task Experts (MoTE) transformer block, which leverages task-specialized parameters trained with Task-Aware Contrastive Learning (\tacl) to enhance the model ability to generate specialized embeddings. Empirical results show that MoTE achieves $64\%$ higher performance gains in retrieval datasets ($+3.27 \rightarrow +5.21$) and $43\%$ higher performance gains across all datasets ($+1.81 \rightarrow +2.60$). Critically, these gains are achieved without altering instructions, training data, inference time, or number of active parameters.
- Abstract(参考訳): デンス埋め込みは現代の機械学習システムの基本であり、検索・拡張生成(RAG)、情報検索、表現学習を駆動している。
命令条件付けは特殊化を埋め込む主要なアプローチとなっているが、低容量モデルへの直接的適用は、特殊化から得られる性能ゲインを制限する基本的な表現的制約を課している。
本稿では、これらの制約を分析し、タスク認識コントラスト学習(\tacl)で訓練されたタスク特化パラメータを活用して、特殊な埋め込みを生成するモデル能力を向上する、タスクエキスパートの混合(MoTE)トランスフォーマーブロックを導入する。
実証的な結果から、MoTEは検索データセット(+3.27 \rightarrow +5.21$)でより高いパフォーマンス向上(+1.81 \rightarrow +2.60$)と、すべてのデータセットで高いパフォーマンス向上(+1.81 \rightarrow +2.60$)を達成した。
重要なことは、これらのゲインは命令、トレーニングデータ、推論時間、アクティブパラメータの数を変更することなく達成される。
関連論文リスト
- Mastering Massive Multi-Task Reinforcement Learning via Mixture-of-Expert Decision Transformer [56.898822179122476]
M3DTは、モデルのパラメータのスケーラビリティをさらに開放することで、タスクのスケーラビリティに対処する新しいM3DTフレームワークである。
実験結果から,M3DTは,専門家の数を増やすことにより,一定のタスク数に対するモデル拡張としての性能を継続的に向上するだけでなく,タスクのスケーラビリティも向上し,性能が向上した160タスクにまで拡張できることが示唆された。
論文 参考訳(メタデータ) (2025-05-30T09:08:52Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
我々はNV-Embedを導入し、アーキテクチャ設計、トレーニング手順、キュレートされたデータセットを取り入れた。
モデルアーキテクチャでは, プール埋め込みを実現するために, 潜時注意層を提案する。
学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:59:45Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - Instruction Tuned Models are Quick Learners [20.771930945083994]
そこで本研究では,各種タスクにおける指導調律モデルのサンプル効率について述べる。
STL設定では、下流列車データの25%を備えた指導調律モデルが下流タスクのSOTA性能を上回っている。
MTL設定では、下流のトレーニングデータの6%しか訓練されていない指導調律モデルがSOTAを達成する一方で、100%のトレーニングデータを使用することで3.69%の改善が達成される。
論文 参考訳(メタデータ) (2023-05-17T22:30:01Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。