Fugu-MT 論文翻訳(概要): Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models

論文の概要: Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2410.20745v2
Date: Thu, 31 Oct 2024 12:54:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.157607
Title: Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models
Title（参考訳）: Shopping MMLU:大規模言語モデルのための大規模マルチタスクオンラインショッピングベンチマーク
Authors: Yilun Jin, Zheng Li, Chenwei Zhang, Tianyu Cao, Yifan Gao, Pratik Jayarao, Mao Li, Xin Liu, Ritesh Sarkhel, Xianfeng Tang, Haodong Wang, Zhengyang Wang, Wenju Xu, Jingfeng Yang, Qingyu Yin, Xian Li, Priyanka Nigam, Yi Xu, Kai Chen, Qiang Yang, Meng Jiang, Bing Yin,
Abstract要約: 大規模言語モデル(LLM)は、タスク固有のエンジニアリング作業を緩和することによって、オンラインショッピングを変革する可能性がある。実世界のAmazonデータから得られた多様なマルチタスクオンラインショッピングベンチマークであるShopping MMLUを提案する。ショッピングMMLUは、概念理解、知識推論、ユーザの行動アライメント、多言語性という4つの主要なショッピングスキルをカバーする57のタスクで構成されている。
参考スコア（独自算出の注目度）: 95.34001906930152
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Online shopping is a complex multi-task, few-shot learning problem with a wide and evolving range of entities, relations, and tasks. However, existing models and benchmarks are commonly tailored to specific tasks, falling short of capturing the full complexity of online shopping. Large Language Models (LLMs), with their multi-task and few-shot learning abilities, have the potential to profoundly transform online shopping by alleviating task-specific engineering efforts and by providing users with interactive conversations. Despite the potential, LLMs face unique challenges in online shopping, such as domain-specific concepts, implicit knowledge, and heterogeneous user behaviors. Motivated by the potential and challenges, we propose Shopping MMLU, a diverse multi-task online shopping benchmark derived from real-world Amazon data. Shopping MMLU consists of 57 tasks covering 4 major shopping skills: concept understanding, knowledge reasoning, user behavior alignment, and multi-linguality, and can thus comprehensively evaluate the abilities of LLMs as general shop assistants. With Shopping MMLU, we benchmark over 20 existing LLMs and uncover valuable insights about practices and prospects of building versatile LLM-based shop assistants. Shopping MMLU can be publicly accessed at https://github.com/KL4805/ShoppingMMLU. In addition, with Shopping MMLU, we host a competition in KDD Cup 2024 with over 500 participating teams. The winning solutions and the associated workshop can be accessed at our website https://amazon-kddcup24.github.io/.
Abstract（参考訳）: オンラインショッピングは複雑なマルチタスクで、広範囲で進化するエンティティ、リレーションシップ、タスクを備えた、数発の学習問題である。しかし、既存のモデルとベンチマークは、一般的に特定のタスクに合わせて調整されており、オンラインショッピングの完全な複雑さを捉えていない。大規模言語モデル(LLM)は、タスク固有のエンジニアリング活動を緩和し、ユーザに対して対話的な会話を提供することによって、オンラインショッピングを根本的に変革する可能性がある。潜在的な可能性にもかかわらず、LLMはドメイン固有の概念、暗黙の知識、異種ユーザーの振る舞いなど、オンラインショッピングにおいてユニークな課題に直面している。この可能性と課題に感銘を受けて、実世界のAmazonデータから派生した多様なマルチタスクオンラインショッピングベンチマークであるShopping MMLUを提案する。ショッピングMMLUは、概念理解、知識推論、ユーザ行動アライメント、多言語性という4つの主要なショッピングスキルをカバーする57のタスクから構成されており、LLMの一般店舗アシスタントとしての能力を包括的に評価することができる。 Shopping MMLUでは、20以上の既存のLLMをベンチマークし、多目的なLLMベースのショップアシスタントを構築するための実践と展望に関する貴重な洞察を明らかにします。 Shopping MMLUはhttps://github.com/KL4805/ShoppingMMLUで公開されている。さらに、Shopping MMLUでは、500以上の参加チームが参加するKDDカップ2024でコンペを開催しています。優勝したソリューションと関連するワークショップは、私たちのWebサイト https://amazon-kddcup24.github.io/.com/でアクセスできます。

関連論文リスト

MANBench: Is Your Multimodal Model Smarter than Human? [7.483339020254684]
9つのタスクにわたる1,314の質問からなるバイリンガル・ベンチマーク(英語と中国語)であるMANBenchを紹介する。我々は、最先端のマルチモーダル言語モデル(MLLM)と比較した。その結果、MLLMは知識やテキストイメージ理解といったタスクに優れていますが、より深いモーダルな推論タスクでは苦労しています。 MANBenchは、MLLMと人間のマルチモーダル能力のギャップを埋める努力を刺激することを期待している。
論文参考訳（メタデータ） (2025-06-04T08:42:14Z)
MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation [52.35744453954844]
本稿では,MLLMの6つのコアオープンエンド能力を評価するベンチマークであるMMRCを紹介する。 MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。そこで我々は,会話から重要な情報を記録し,その応答中にモデルを思い出させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
論文参考訳（メタデータ） (2025-02-17T15:24:49Z)
Humanity's Last Exam [434.8511341499966]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。数学、人文科学、自然科学など、数十の分野にまたがる2,500の質問で構成されている。各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文参考訳（メタデータ） (2025-01-24T05:27:46Z)
MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge [24.66666826440994]
MINTQAは、マルチホップ推論における大規模言語モデルの能力を評価するベンチマークである。 MINTQAは、新しい知識を評価するための10,479対の質問応答ペアと、長い知識を評価するための17,887対の質問応答ペアからなる。 MINTQA上での22の最先端LCMの体系的評価により,複雑な知識ベースクエリを扱う能力に重大な制限があることが判明した。
論文参考訳（メタデータ） (2024-12-22T14:17:12Z)
MARCO: Multi-Agent Real-time Chat Orchestration [6.7741570640544415]
LLMを用いたタスク自動化のためのマルチエージェントリアルタイムチャットオーケストレーションフレームワークであるMARCOを提案する。 MARCOは複雑なマルチステップタスク実行にLLMを使用する上で重要な課題に対処する。我々は、デジタルレストランサービスプラットフォームの会話におけるタスク実行における、94.48%と92.74%の精度で、MARCOの優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-29T06:42:27Z)
Probing the Robustness of Theory of Mind in Large Language Models [6.7932860553262415]
LLMにおけるToM探索のための68タスクの新しいデータセットを提案する。データセットとデータセットを用いた4つのSotAオープンソースLLMのToM性能の評価(Kosinski, 2023)。エージェントが環境における自動状態変化の知識を持っているという認識を必要とするタスクにおいて、全てのLLMが不整合性を示す傾向がみられた。
論文参考訳（メタデータ） (2024-10-08T18:13:27Z)
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines [91.08394877954322]
大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
論文参考訳（メタデータ） (2024-09-19T17:59:45Z)
SEQ+MD: Learning Multi-Task as a SEQuence with Multi-Distribution Data [5.069855142454979]
マルチタスク学習(MTL)のための逐次学習と,マルチディストリビューション入力のための特徴生成領域マスクを統合したSEQ+MDフレームワークを提案する。クリック性能を中立に保ちながら、付加品と購入を含む高価値エンゲージメントの増大を示す。我々のマルチリージョン学習モジュールは"plug-and-play"であり、他のMTLアプリケーションに容易に適応できる。
論文参考訳（メタデータ） (2024-08-23T20:14:27Z)
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。 MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文参考訳（メタデータ） (2024-08-05T17:56:41Z)
LLaSA: Large Language and E-Commerce Shopping Assistant [17.53318263751155]
EshopInstructと呼ばれる65,000のサンプルと多様なタスクからなる命令データセットを作成します。我々のデータセットの命令チューニングを通じて、LLaSAという名前のアシスタントは、全能アシスタントとして機能する可能性を示す。 Amazon KDD Cup 2024 Challengeでは,提案手法であるLLaSAがShopBenchで3位にランクインした。
論文参考訳（メタデータ） (2024-08-04T12:10:51Z)
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark [44.840266648465054]
本稿では、主に知識駆動型MMLUベンチマークを拡張するために設計された拡張データセットであるMMLU-Proを紹介する。 24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。 MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
論文参考訳（メタデータ） (2024-06-03T17:53:00Z)
MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文参考訳（メタデータ） (2024-05-29T18:45:55Z)
Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models [84.78457918843165]
Unsolvable Problem Detection (UPD) は,大規模マルチモーダルモデル(LMM)の頑健な理解能力を評価するための新しいタスクである。 UPDは、多票質問応答の解決不可能な問題に遭遇する際のLMMの回答を抑える能力を評価する。本稿では,MM-UPD Benchについて紹介する。
論文参考訳（メタデータ） (2024-03-29T17:59:53Z)
Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文参考訳（メタデータ） (2023-09-29T13:33:06Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。