論文の概要: Towards Reliable Evaluation of Large Language Models for Multilingual and Multimodal E-Commerce Applications
- arxiv url: http://arxiv.org/abs/2510.20632v1
- Date: Thu, 23 Oct 2025 15:04:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.225856
- Title: Towards Reliable Evaluation of Large Language Models for Multilingual and Multimodal E-Commerce Applications
- Title(参考訳): マルチ言語およびマルチモーダルEコマースアプリケーションのための大規模言語モデルの信頼性評価に向けて
- Authors: Shuyi Xie, Ziqin Liew, Hailing Zhang, Haibo Zhang, Ling Hu, Zhiqiang Zhou, Shuman Liu, Anxiang Zeng,
- Abstract要約: LLM(Large Language Models)は汎用NLPベンチマークに優れるが、専門分野におけるその能力は未解明のままである。
電子商取引におけるLLMを評価するための総合的多言語およびマルチモーダルベンチマークであるEcomEvalを紹介する。
- 参考スコア(独自算出の注目度): 11.494234164197266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel on general-purpose NLP benchmarks, yet their capabilities in specialized domains remain underexplored. In e-commerce, existing evaluations-such as EcomInstruct, ChineseEcomQA, eCeLLM, and Shopping MMLU-suffer from limited task diversity (e.g., lacking product guidance and after-sales issues), limited task modalities (e.g., absence of multimodal data), synthetic or curated data, and a narrow focus on English and Chinese, leaving practitioners without reliable tools to assess models on complex, real-world shopping scenarios. We introduce EcomEval, a comprehensive multilingual and multimodal benchmark for evaluating LLMs in e-commerce. EcomEval covers six categories and 37 tasks (including 8 multimodal tasks), sourced primarily from authentic customer queries and transaction logs, reflecting the noisy and heterogeneous nature of real business interactions. To ensure both quality and scalability of reference answers, we adopt a semi-automatic pipeline in which large models draft candidate responses subsequently reviewed and modified by over 50 expert annotators with strong e-commerce and multilingual expertise. We define difficulty levels for each question and task category by averaging evaluation scores across models with different sizes and capabilities, enabling challenge-oriented and fine-grained assessment. EcomEval also spans seven languages-including five low-resource Southeast Asian languages-offering a multilingual perspective absent from prior work.
- Abstract(参考訳): LLM(Large Language Models)は汎用NLPベンチマークに優れるが、専門分野におけるその能力は未解明のままである。
電子商取引においては、EcomInstruct、ChinaEcomQA、eCeLLM、Shopping MMLU-sufferなどの既存の評価は、限られたタスク多様性(例:製品ガイダンスやアフターセールの問題)、限定されたタスクモダリティ(例:マルチモーダルデータの欠如)、合成またはキュレートされたデータ、英語と中国語に焦点を当てており、実践者が複雑で現実的なショッピングシナリオのモデルを評価するための信頼できるツールを持たないままである。
電子商取引におけるLLMを評価するための総合的多言語およびマルチモーダルベンチマークであるEcomEvalを紹介する。
EcomEvalは6つのカテゴリと37のタスク(8つのマルチモーダルタスクを含む)をカバーしている。
参照回答の品質とスケーラビリティを両立させるため,大規模なモデルで候補回答を作成したセミオートマチックパイプラインを導入し,その後,強力なeコマースと多言語専門知識を持つ50以上の専門家アノテータによるレビューと修正を行った。
我々は,各質問項目と課題カテゴリの難易度を,異なるサイズと能力を持つモデル間で評価スコアを平均化し,課題指向できめ細かな評価を可能にすることによって定義する。
EcomEvalはまた、低リソースの東南アジアの5つの言語を含む7つの言語にまたがっている。
関連論文リスト
- M3TQA: Massively Multilingual Multitask Table Question Answering [39.99483693397598]
m3TQA-Instructは97の言語にまたがる大規模なベンチマークである。
我々は、中国語と英語で50の現実世界のテーブルをキュレートしてm3TQAを構築し、DeepSeekとGPT-4oをベースとした堅牢な6ステップの翻訳パイプラインを適用した。
このベンチマークには、微妙なテーブル推論能力を評価するために設計された4つのタスクに2,916の専門的なアノテートされた質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-08-22T09:57:40Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Benchmarking and Building Zero-Shot Hindi Retrieval Model with Hindi-BEIR and NLLB-E5 [8.21020989074456]
Hindi-BEIRベンチマークを導入し,7つのタスクにまたがる15のデータセットについて検討した。
我々は,Hindi-BEIRベンチマークを用いた最先端多言語検索モデルの評価を行い,課題とドメイン固有の課題を特定する。
我々は,ヒンディー語学習データを必要とせずにヒンディー語をサポートするため,ゼロショットアプローチを利用する多言語検索モデルであるNLLB-E5を紹介する。
論文 参考訳(メタデータ) (2024-09-09T07:57:43Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。