論文の概要: LLM-Ensemble: Optimal Large Language Model Ensemble Method for
E-commerce Product Attribute Value Extraction
- arxiv url: http://arxiv.org/abs/2403.00863v1
- Date: Thu, 29 Feb 2024 23:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:16:40.721168
- Title: LLM-Ensemble: Optimal Large Language Model Ensemble Method for
E-commerce Product Attribute Value Extraction
- Title(参考訳): LLMアンサンブル:Eコマース製品属性値抽出のための最適大言語モデルアンサンブル法
- Authors: Chenhao Fang, Xiaohan Li, Zezhong Fan, Jianpeng Xu, Kaushiki Nag,
Evren Korpeoglu, Sushant Kumar, Kannan Achan
- Abstract要約: 大規模言語モデル(LLM)は多くの属性抽出タスクにおいて最先端の性能を示す。
属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルと呼ばれる新しいアルゴリズムを提案する。
提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
- 参考スコア(独自算出の注目度): 13.154269540872995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product attribute value extraction is a pivotal component in Natural Language
Processing (NLP) and the contemporary e-commerce industry. The provision of
precise product attribute values is fundamental in ensuring high-quality
recommendations and enhancing customer satisfaction. The recently emerging
Large Language Models (LLMs) have demonstrated state-of-the-art performance in
numerous attribute extraction tasks, without the need for domain-specific
training data. Nevertheless, varying strengths and weaknesses are exhibited by
different LLMs due to the diversity in data, architectures, and
hyperparameters. This variation makes them complementary to each other, with no
single LLM dominating all others. Considering the diverse strengths and
weaknesses of LLMs, it becomes necessary to develop an ensemble method that
leverages their complementary potentials. In this paper, we propose a novel
algorithm called LLM-ensemble to ensemble different LLMs' outputs for attribute
value extraction. We iteratively learn the weights for different LLMs to
aggregate the labels with weights to predict the final attribute value. Not
only can our proposed method be proven theoretically optimal, but it also
ensures efficient computation, fast convergence, and safe deployment. We have
also conducted extensive experiments with various state-of-the-art LLMs,
including Llama2-13B, Llama2-70B, PaLM-2, GPT-3.5, and GPT-4, on Walmart's
internal data. Our offline metrics demonstrate that the LLM-ensemble method
outperforms all the state-of-the-art single LLMs on Walmart's internal dataset.
This method has been launched in several production models, leading to improved
Gross Merchandise Volume (GMV), Click-Through Rate (CTR), Conversion Rate
(CVR), and Add-to-Cart Rate (ATC).
- Abstract(参考訳): 商品属性値抽出は自然言語処理(NLP)と現代電子商取引業界において重要な要素である。
製品属性の正確な値の提供は、高品質なレコメンデーションの確保と顧客満足度の向上に不可欠である。
最近登場した大規模言語モデル(llms)は、ドメイン固有のトレーニングデータを必要としない、多数の属性抽出タスクで最先端のパフォーマンスを示している。
それでも、データ、アーキテクチャ、ハイパーパラメータの多様性のため、様々な長所と短所が異なるLCMによって示される。
この変異は相互に相補的であり、LLMが他の全てを独占することはない。
LLMの多様な長所と短所を考えると、それらの相補的ポテンシャルを利用するアンサンブル法を開発する必要がある。
本稿では,属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルという新しいアルゴリズムを提案する。
異なるLLMの重みを反復的に学習し、ラベルを重みで集約し、最終的な属性値を予測する。
提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
Walmartの内部データからLlama2-13B,Llama2-70B,PaLM-2,GPT-3.5,GPT-4など,最先端LLMのさまざまな実験を行った。
我々のオフラインメトリクスは、LLMアンサンブルメソッドがWalmartの内部データセット上の最先端の単一のLLMよりも優れていることを示している。
この方法はいくつかの生産モデルでローンチされ、Gross Merchandise Volume (GMV)、Click-Through Rate (CTR)、Conversion Rate (CVR)、Add-to-Cart Rate (ATC)が改善された。
関連論文リスト
- Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Generative Multimodal Entity Linking [26.570627753768605]
マルチモーダルエンティティリンク(英: Multimodal Entity Linking、MEL)は、知識ベース(ウィキペディアなど)からの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
GEMELは,大規模言語モデル(LLM)をベースとした,シンプルで効果的な生成型マルチモーダルエンティティリンクフレームワークである。
モデルパラメータの0.3%しか微調整されていないため、GEMELは2つの確立されたMELデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。