論文の概要: Explainable LLM-driven Multi-dimensional Distillation for E-Commerce Relevance Learning
- arxiv url: http://arxiv.org/abs/2411.13045v1
- Date: Wed, 20 Nov 2024 05:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:33.581979
- Title: Explainable LLM-driven Multi-dimensional Distillation for E-Commerce Relevance Learning
- Title(参考訳): 説明可能なLCM駆動多次元蒸留によるeコマース関連学習
- Authors: Gang Zhao, Ximing Zhang, Chenji Lu, Hui Zhao, Tianshu Wu, Pengjie Wang, Jian Xu, Bo Zheng,
- Abstract要約: 電子商取引関連学習のための説明可能なLCM駆動多次元蒸留フレームワークを提案する。
提案手法は,eコマース関連学習性能とユーザエクスペリエンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 20.569157915157817
- License:
- Abstract: Effective query-item relevance modeling is pivotal for enhancing user experience and safeguarding user satisfaction in e-commerce search systems. Recently, benefiting from the vast inherent knowledge, Large Language Model (LLM) approach demonstrates strong performance and long-tail generalization ability compared with previous neural-based specialized relevance learning methods. Though promising, current LLM-based methods encounter the following inadequacies in practice: First, the massive parameters and computational demands make it difficult to be deployed online. Second, distilling LLM models to online models is a feasible direction, but the LLM relevance modeling is a black box, and its rich intrinsic knowledge is difficult to extract and apply online. To improve the interpretability of LLM and boost the performance of online relevance models via LLM, we propose an Explainable LLM-driven Multi-dimensional Distillation framework for e-commerce relevance learning, which comprises two core components: (1) An Explainable LLM for relevance modeling (ELLM-rele), which decomposes the relevance learning into intermediate steps and models relevance learning as a Chain-of-Thought (CoT) reasoning, thereby enhancing both interpretability and performance of LLM. (2) A Multi-dimensional Knowledge Distillation (MKD) architecture that transfers the knowledge of ELLM-rele to current deployable interaction-based and representation-based student models from both the relevance score distribution and CoT reasoning aspects. Through distilling the probabilistic and CoT reasoning knowledge, MKD improves both the semantic interaction and long-tail generalization abilities of student models. Extensive offline evaluations and online experiments on Taobao search ad scene demonstrate that our proposed framework significantly enhances e-commerce relevance learning performance and user experience.
- Abstract(参考訳): 本手法は,eコマース検索システムにおけるユーザエクスペリエンスの向上とユーザ満足度保護に重要である。
近年,Large Language Model (LLM) アプローチは,従来のニューラルベース特殊関連学習法と比較して,高い性能と長期の一般化能力を示す。
第一に、大量のパラメータと計算要求によって、オンラインにデプロイすることが困難になります。
第2に、LLMモデルをオンラインモデルに蒸留することは実現可能な方向であるが、LCM関連モデリングはブラックボックスであり、その豊富な本質的な知識を抽出してオンラインに適用することは困難である。
LLMによるオンライン関連モデルの解釈性の向上と、LLMによるオンライン関連モデルの性能向上を目的として、1) 関連モデリング(ELLM-rele)のための説明可能なLLMを中間ステップに分解し、CoT(Chain-of-Thought)推論としてモデル関連学習を行い、LLMの解釈性と性能を両立させる、Eコマース関連学習のための説明可能なLLM駆動多次元蒸留フレームワークを提案する。
2) 多次元知識蒸留(MKD)アーキテクチャは,ELM-releの知識を,関連スコア分布とCoT推論の両面から,現在の展開可能なインタラクションベースおよび表現ベース学習モデルに伝達する。
確率的推論知識とCoT推論知識を蒸留することにより、MKDは学生モデルのセマンティック相互作用とロングテール一般化能力の両方を改善する。
Taobaoの検索広告シーンにおける大規模なオフライン評価とオンライン実験により,提案手法は電子商取引関連学習性能とユーザエクスペリエンスを大幅に向上させることが示された。
関連論文リスト
- Investigating LLM Applications in E-Commerce [17.854070801235217]
大規模言語モデル(LLM)は、特にeコマースにおける様々なアプリケーションにおける自然言語処理に革命をもたらした。
本稿では,電子商取引分野におけるLLMの有効性を考察し,様々な規模の公開電子商取引データセットを用いたオープンソースのLLMモデルの構築に焦点をあてる。
電子商取引特化業務において,テキスト内学習を用いた大規模LLMのニッチ産業応用の有効性について検討した。
論文 参考訳(メタデータ) (2024-08-23T00:57:37Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning [30.25610464801255]
大規模言語モデル(LLM)は、データ規則や倫理的AIプラクティスに従うための効果的な非学習メカニズムの必要性を強調している。
LLMアンラーニングの研究への関心は高まりつつあるが、LLMアンラーニングの選択の影響は未解明のままである。
我々はLLMアンラーニングにおける選択の重要性を初めて明らかにし、二階最適化と影響アンラーニングの明確な関連性を確立した。
論文 参考訳(メタデータ) (2024-04-28T16:31:32Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。