論文の概要: MixLM: High-Throughput and Effective LLM Ranking via Text-Embedding Mix-Interaction
- arxiv url: http://arxiv.org/abs/2512.07846v1
- Date: Tue, 25 Nov 2025 21:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.509789
- Title: MixLM: High-Throughput and Effective LLM Ranking via Text-Embedding Mix-Interaction
- Title(参考訳): MixLM: テキスト埋め込み型Mix-Interactionによる高速かつ効果的なLLMランキング作成
- Authors: Guoyao Li, Ran He, Shusen Jing, Kayhan Behdin, Yubo Wang, Sundara Raman Ramachandran, Chanh Nguyen, Jian Sheng, Xiaojing Ma, Chuanrui Zhu, Sriram Vasudevan, Muchen Wu, Sayan Ghosh, Lin Su, Qingquan Song, Xiaoqing Wang, Zhipeng Wang, Qing Lan, Yanning Chen, Jingwei Wu, Luke Simon, Wenjing Zhang, Qi Guo, Fedor Borisyuk,
- Abstract要約: 大規模言語モデル(LLM)は意味的ニュアンスを捉えるのに優れている。
産業的なレイテンシとスループットの要求下では、高い計算オーバーヘッドに悩まされる。
LLMに基づく新しいランキングフレームワークであるMixLMを提案する。
- 参考スコア(独自算出の注目度): 28.43509939465397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at capturing semantic nuances and therefore show impressive relevance ranking performance in modern recommendation and search systems. However, they suffer from high computational overhead under industrial latency and throughput requirements. In particular, cross-encoder ranking systems often create long context prefill-heavy workloads, as the model has to be presented with the user, query and item information. To this end, we propose MixLM, a novel LLM-based ranking framework, which significantly improves the system throughput via reducing the input context length, while preserving the semantic strength of cross-encoder rankers. In contrast to a standard ranking system where the context is presented to the model as pure text, we propose to use mix-interaction, a mixture of text and embedding tokens to represent the input. Specifically, MixLM encodes all items in the catalog into a few embedding tokens and stores in a nearline cache. The encoded item descriptions are used during online inference, effectively reducing the item length from a few thousand text tokens to a few embedding tokens. We share insights from deploying our MixLM framework to a real-world search application at LinkedIn, including a detailed discussion of our training pipelines, as well as a thorough analysis of our online serving infrastructure optimization. Comparing with strong baselines, MixLM increased throughput by 10.0x under the same latency budget, while maintaining relevance metrics. The efficiency gains delivered by MixLM enabled full-traffic deployment of LLM-powered search, which resulted in a significant 0.47% increase in Daily Active Users (DAU) in online A/B tests.
- Abstract(参考訳): 大規模言語モデル(LLM)は意味的ニュアンスを捉えるのに優れており、現代のレコメンデーションやサーチシステムにおいて、顕著な関連性ランキング性能を示す。
しかし、産業的なレイテンシとスループットの要求下では、高い計算オーバーヘッドに悩まされる。
特に、クロスエンコーダのランキングシステムは、ユーザ、クエリ、アイテム情報とともにモデルを提示する必要があるため、長いコンテキストのプレフィル重ワークロードを生成することが多い。
そこで本研究では,LLMに基づく新たなランキングフレームワークであるMixLMを提案し,入力コンテキスト長を削減し,クロスエンコーダのセマンティックな強度を保ちながら,システムスループットを著しく向上させる。
文脈を純粋テキストとして提示する標準的なランキングシステムとは対照的に,テキストと埋め込みトークンを混合して入力を表現する混合インタラクションを提案する。
具体的には、MixLMはカタログ内のすべてのアイテムをいくつかの埋め込みトークンにエンコードし、ニアラインキャッシュに格納する。
符号化された項目記述はオンライン推論中に使用され、数千のテキストトークンから数個の埋め込みトークンへのアイテムの長さを効果的に削減する。
トレーニングパイプラインに関する詳細な議論や、オンラインサービスインフラストラクチャ最適化に関する詳細な分析など、LinkedInの現実世界の検索アプリケーションにMixLMフレームワークをデプロイする際の洞察を共有しています。
強いベースラインと比較して、MixLMは同じレイテンシ予算の下でスループットを10.0倍向上し、関連するメトリクスを維持した。
MixLMによる効率向上により、LLMによる検索の完全なトラフィック展開が可能となり、オンラインA/Bテストではデイリーアクティブユーザー(DAU)が0.47%増加した。
関連論文リスト
- MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - LLM-based Semantic Augmentation for Harmful Content Detection [5.954202581988127]
本稿では,大規模言語モデルに対して,雑音の多いテキストをきれいにし,文脈に富んだ説明を提供するアプローチを提案する。
我々はSemEval 2024マルチラベルPersuasive Memeデータセットを評価し、Google Jigsawの有毒なコメントとFacebookの憎しみのあるミームデータセットで検証した。
その結果, 教師付きモデルと比較して, ゼロショットLLM分類はこれらの高文脈タスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2025-04-22T02:59:03Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - HyQE: Ranking Contexts with Hypothetical Query Embeddings [9.23634055123276]
検索拡張システムでは、検索したコンテキストをユーザクエリとの関連性に基づいて順序付けするために、コンテキストランキング技術が一般的に使用される。
大規模言語モデル(LLM)は、文脈のランク付けに使われてきた。
LLMの微調整を必要とせずに、埋め込み類似性とLLM機能を組み合わせたスケーラブルなランキングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-10-20T03:15:01Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Reindex-Then-Adapt: Improving Large Language Models for Conversational Recommendation [50.19602159938368]
大規模言語モデル(LLM)は、会話レコメンデーションシステムに革命をもたらしている。
本稿では,マルチトークンのタイトルを単一トークンに変換するReindex-Then-Adapt(RTA)フレームワークを提案する。
本フレームワークでは,3つの対話推薦データセットの精度向上を実証する。
論文 参考訳(メタデータ) (2024-05-20T15:37:55Z) - Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。
文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文 参考訳(メタデータ) (2024-03-01T10:01:36Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。