論文の概要: Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.20745v2
- Date: Thu, 31 Oct 2024 12:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:00.326679
- Title: Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models
- Title(参考訳): Shopping MMLU:大規模言語モデルのための大規模マルチタスクオンラインショッピングベンチマーク
- Authors: Yilun Jin, Zheng Li, Chenwei Zhang, Tianyu Cao, Yifan Gao, Pratik Jayarao, Mao Li, Xin Liu, Ritesh Sarkhel, Xianfeng Tang, Haodong Wang, Zhengyang Wang, Wenju Xu, Jingfeng Yang, Qingyu Yin, Xian Li, Priyanka Nigam, Yi Xu, Kai Chen, Qiang Yang, Meng Jiang, Bing Yin,
- Abstract要約: 大規模言語モデル(LLM)は、タスク固有のエンジニアリング作業を緩和することによって、オンラインショッピングを変革する可能性がある。
実世界のAmazonデータから得られた多様なマルチタスクオンラインショッピングベンチマークであるShopping MMLUを提案する。
ショッピングMMLUは、概念理解、知識推論、ユーザの行動アライメント、多言語性という4つの主要なショッピングスキルをカバーする57のタスクで構成されている。
- 参考スコア(独自算出の注目度): 95.34001906930152
- License:
- Abstract: Online shopping is a complex multi-task, few-shot learning problem with a wide and evolving range of entities, relations, and tasks. However, existing models and benchmarks are commonly tailored to specific tasks, falling short of capturing the full complexity of online shopping. Large Language Models (LLMs), with their multi-task and few-shot learning abilities, have the potential to profoundly transform online shopping by alleviating task-specific engineering efforts and by providing users with interactive conversations. Despite the potential, LLMs face unique challenges in online shopping, such as domain-specific concepts, implicit knowledge, and heterogeneous user behaviors. Motivated by the potential and challenges, we propose Shopping MMLU, a diverse multi-task online shopping benchmark derived from real-world Amazon data. Shopping MMLU consists of 57 tasks covering 4 major shopping skills: concept understanding, knowledge reasoning, user behavior alignment, and multi-linguality, and can thus comprehensively evaluate the abilities of LLMs as general shop assistants. With Shopping MMLU, we benchmark over 20 existing LLMs and uncover valuable insights about practices and prospects of building versatile LLM-based shop assistants. Shopping MMLU can be publicly accessed at https://github.com/KL4805/ShoppingMMLU. In addition, with Shopping MMLU, we host a competition in KDD Cup 2024 with over 500 participating teams. The winning solutions and the associated workshop can be accessed at our website https://amazon-kddcup24.github.io/.
- Abstract(参考訳): オンラインショッピングは複雑なマルチタスクで、広範囲で進化するエンティティ、リレーションシップ、タスクを備えた、数発の学習問題である。
しかし、既存のモデルとベンチマークは、一般的に特定のタスクに合わせて調整されており、オンラインショッピングの完全な複雑さを捉えていない。
大規模言語モデル(LLM)は、タスク固有のエンジニアリング活動を緩和し、ユーザに対して対話的な会話を提供することによって、オンラインショッピングを根本的に変革する可能性がある。
潜在的な可能性にもかかわらず、LLMはドメイン固有の概念、暗黙の知識、異種ユーザーの振る舞いなど、オンラインショッピングにおいてユニークな課題に直面している。
この可能性と課題に感銘を受けて、実世界のAmazonデータから派生した多様なマルチタスクオンラインショッピングベンチマークであるShopping MMLUを提案する。
ショッピングMMLUは、概念理解、知識推論、ユーザ行動アライメント、多言語性という4つの主要なショッピングスキルをカバーする57のタスクから構成されており、LLMの一般店舗アシスタントとしての能力を包括的に評価することができる。
Shopping MMLUでは、20以上の既存のLLMをベンチマークし、多目的なLLMベースのショップアシスタントを構築するための実践と展望に関する貴重な洞察を明らかにします。
Shopping MMLUはhttps://github.com/KL4805/ShoppingMMLUで公開されている。
さらに、Shopping MMLUでは、500以上の参加チームが参加するKDDカップ2024でコンペを開催しています。
優勝したソリューションと関連するワークショップは、私たちのWebサイト https://amazon-kddcup24.github.io/.com/でアクセスできます。
関連論文リスト
- MARCO: Multi-Agent Real-time Chat Orchestration [6.7741570640544415]
LLMを用いたタスク自動化のためのマルチエージェントリアルタイムチャットオーケストレーションフレームワークであるMARCOを提案する。
MARCOは複雑なマルチステップタスク実行にLLMを使用する上で重要な課題に対処する。
我々は、デジタルレストランサービスプラットフォームの会話におけるタスク実行における、94.48%と92.74%の精度で、MARCOの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-29T06:42:27Z) - Probing the Robustness of Theory of Mind in Large Language Models [6.7932860553262415]
LLMにおけるToM探索のための68タスクの新しいデータセットを提案する。
データセットとデータセットを用いた4つのSotAオープンソースLLMのToM性能の評価(Kosinski, 2023)。
エージェントが環境における自動状態変化の知識を持っているという認識を必要とするタスクにおいて、全てのLLMが不整合性を示す傾向がみられた。
論文 参考訳(メタデータ) (2024-10-08T18:13:27Z) - MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines [91.08394877954322]
大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。
しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。
まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
論文 参考訳(メタデータ) (2024-09-19T17:59:45Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - LLaSA: Large Language and E-Commerce Shopping Assistant [17.53318263751155]
EshopInstructと呼ばれる65,000のサンプルと多様なタスクからなる命令データセットを作成します。
我々のデータセットの命令チューニングを通じて、LLaSAという名前のアシスタントは、全能アシスタントとして機能する可能性を示す。
Amazon KDD Cup 2024 Challengeでは,提案手法であるLLaSAがShopBenchで3位にランクインした。
論文 参考訳(メタデータ) (2024-08-04T12:10:51Z) - MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark [44.840266648465054]
本稿では、主に知識駆動型MMLUベンチマークを拡張するために設計された拡張データセットであるMMLU-Proを紹介する。
24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。
MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
論文 参考訳(メタデータ) (2024-06-03T17:53:00Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks for Exploring Theory of Mind [3.9599054392856483]
ToMChallengesは,Sally-Anne と Smarties のテストに基づいて,多種多様なタスクを用いて,心の理論を総合的に評価するためのデータセットである。
評価結果と誤差分析により,LLMはプロンプトやタスク間で不整合な挙動を示す。
論文 参考訳(メタデータ) (2023-05-24T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。