論文の概要: Unlocking Markets: A Multilingual Benchmark to Cross-Market Question Answering
- arxiv url: http://arxiv.org/abs/2409.16025v1
- Date: Tue, 24 Sep 2024 12:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:56:20.087776
- Title: Unlocking Markets: A Multilingual Benchmark to Cross-Market Question Answering
- Title(参考訳): 市場をアンロックする - 市場横断質問に対するマルチリンガルベンチマーク
- Authors: Yifei Yuan, Yang Deng, Anders Søgaard, Mohammad Aliannejadi,
- Abstract要約: 製品関連質問応答(PQA)は、ユーザに対して正確な回答を提供するために、製品関連リソースを活用する。
マルチリンガル・クロスマーケット・プロダクト・ベースの質問回答(MCPQA)の新たな課題を提案する。
11言語にまたがる17のマーケットプレースから700万以上の質問からなる大規模なデータセットを導入します。
- 参考スコア(独自算出の注目度): 49.68194318431166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Users post numerous product-related questions on e-commerce platforms, affecting their purchase decisions. Product-related question answering (PQA) entails utilizing product-related resources to provide precise responses to users. We propose a novel task of Multilingual Cross-market Product-based Question Answering (MCPQA) and define the task as providing answers to product-related questions in a main marketplace by utilizing information from another resource-rich auxiliary marketplace in a multilingual context. We introduce a large-scale dataset comprising over 7 million questions from 17 marketplaces across 11 languages. We then perform automatic translation on the Electronics category of our dataset, naming it as McMarket. We focus on two subtasks: review-based answer generation and product-related question ranking. For each subtask, we label a subset of McMarket using an LLM and further evaluate the quality of the annotations via human assessment. We then conduct experiments to benchmark our dataset, using models ranging from traditional lexical models to LLMs in both single-market and cross-market scenarios across McMarket and the corresponding LLM subset. Results show that incorporating cross-market information significantly enhances performance in both tasks.
- Abstract(参考訳): ユーザーはEコマースプラットフォームに多くの製品関連質問を投稿し、購入決定に影響を与える。
製品関連質問応答(PQA)は、ユーザに対して正確な回答を提供するために、製品関連リソースを活用する。
マルチリンガル・クロスマーケット・プロダクト・ベースの質問回答(MCPQA)の新たな課題を提案し,その課題を主市場における製品関連質問に対する回答として定義する。
11言語にまたがる17のマーケットプレースから700万以上の質問からなる大規模なデータセットを導入します。
次に、データセットのElectronicsカテゴリで自動翻訳を行い、McMarketと命名します。
レビューベースの回答生成と製品関連質問ランキングの2つのサブタスクに焦点を当てる。
各サブタスクに対して、LLMを用いてMcMarketのサブセットをラベル付けし、人間の評価によってアノテーションの品質をさらに評価する。
次に、従来の語彙モデルからLLMまで、McMarketとそれに対応するLLMサブセットのシングルマーケットおよびクロスマーケットシナリオのモデルを用いて、データセットをベンチマークする実験を行った。
その結果,クロスマーケット情報の導入は両タスクのパフォーマンスを著しく向上させることがわかった。
関連論文リスト
- INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - Large Language Models for Relevance Judgment in Product Search [48.56992980315751]
検索クエリに対する検索および再ランクされたアイテムの高い関連性は、製品検索の成功の土台である。
本稿では,大規模言語モデル(LLM)を活用して,クエリ・イテムペア(QIP)の関連判断を大規模に自動化する手法について述べる。
本研究は,製品検索における関連判断の自動化の分野への直接的な影響を示唆するものである。
論文 参考訳(メタデータ) (2024-06-01T00:52:41Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question
Answering Benchmark [69.3415799675046]
我々は,中国インターネットの最新ニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。
我々は、人間とモデルを組み合わせたパイプラインを通じて高品質なデータを得る。
また,CDQA上での中国LLMの評価と分析を行った。
論文 参考訳(メタデータ) (2024-02-29T15:22:13Z) - xPQA: Cross-Lingual Product Question Answering across 12 Languages [26.691856403891105]
PQA(Product Question Answering)システムは、顧客の質問に対する回答を提供するためのeコマースアプリケーションにおいて鍵となる。
xPQAは、9つのブランチにまたがる12の言語で、大規模な注釈付き言語間PQAデータセットである。
本研究では,(1) 候補者ランキング,(2) 英語以外の質問に答える最適な英語候補の選択,(2) 回答生成,(2) 選択した英語候補に基づいて自然に聞こえる非英語回答を生成する。
論文 参考訳(メタデータ) (2023-05-16T07:56:19Z) - Self-Teaching Machines to Read and Comprehend with Large-Scale
Multi-Subject Question Answering Data [58.36305373100518]
主観的問合せデータが機械読解作業に有用かどうかは不明である。
大規模多目的多目的質問回答データセットであるExamQAを収集する。
我々は、Web検索エンジンが返す不完全でノイズの多いスニペットを、各質問応答インスタンスの関連するコンテキストとして使用し、弱いラベル付きMRCインスタンスに変換する。
論文 参考訳(メタデータ) (2021-02-01T23:18:58Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。