論文の概要: xPQA: Cross-Lingual Product Question Answering across 12 Languages
- arxiv url: http://arxiv.org/abs/2305.09249v1
- Date: Tue, 16 May 2023 07:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 15:57:18.865242
- Title: xPQA: Cross-Lingual Product Question Answering across 12 Languages
- Title(参考訳): xPQA:12言語にまたがる言語横断の製品質問
- Authors: Xiaoyu Shen, Akari Asai, Bill Byrne and Adri\`a de Gispert
- Abstract要約: PQA(Product Question Answering)システムは、顧客の質問に対する回答を提供するためのeコマースアプリケーションにおいて鍵となる。
xPQAは、9つのブランチにまたがる12の言語で、大規模な注釈付き言語間PQAデータセットである。
本研究では,(1) 候補者ランキング,(2) 英語以外の質問に答える最適な英語候補の選択,(2) 回答生成,(2) 選択した英語候補に基づいて自然に聞こえる非英語回答を生成する。
- 参考スコア(独自算出の注目度): 26.691856403891105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product Question Answering (PQA) systems are key in e-commerce applications
to provide responses to customers' questions as they shop for products. While
existing work on PQA focuses mainly on English, in practice there is need to
support multiple customer languages while leveraging product information
available in English. To study this practical industrial task, we present xPQA,
a large-scale annotated cross-lingual PQA dataset in 12 languages across 9
branches, and report results in (1) candidate ranking, to select the best
English candidate containing the information to answer a non-English question;
and (2) answer generation, to generate a natural-sounding non-English answer
based on the selected English candidate. We evaluate various approaches
involving machine translation at runtime or offline, leveraging multilingual
pre-trained LMs, and including or excluding xPQA training data. We find that
(1) In-domain data is essential as cross-lingual rankers trained on other
domains perform poorly on the PQA task; (2) Candidate ranking often prefers
runtime-translation approaches while answer generation prefers multilingual
approaches; (3) Translating offline to augment multilingual models helps
candidate ranking mainly on languages with non-Latin scripts; and helps answer
generation mainly on languages with Latin scripts. Still, there remains a
significant performance gap between the English and the cross-lingual test
sets.
- Abstract(参考訳): PQA(Product Question Answering)システムは、eコマースアプリケーションにおいて、商品を購入する際に顧客の質問に対する応答を提供するキーとなる。
PQAに関する既存の作業は主に英語に焦点を当てているが、実際には、英語で利用可能な製品情報を活用しながら、複数の顧客言語をサポートする必要がある。
この実践的な産業課題を研究するため,9つの分野にわたる12の言語からなる大規模注釈付き言語間PQAデータセットであるxPQAを提示し,(1)候補ランク付けの結果を報告し,(1)非英語質問に回答する情報を含む最適な英語候補を選択し,(2)回答生成を行い,選択した英語候補に基づいて自然に聞こえる非英語回答を生成する。
我々は、実行時またはオフラインでの機械翻訳に関する様々なアプローチを評価し、複数言語で事前訓練されたLMを活用し、xPQAトレーニングデータを含むか除外する。
1) ドメイン内データは,PQAタスクで訓練された言語間ランク付けが不十分なため,必須である。(2) 候補ランク付けは,実行時翻訳アプローチが好まれるが,回答生成は多言語アプローチが好まれる。(3) オフラインから多言語モデルへの変換は,主にラテン語以外のスクリプトを持つ言語上でのランク付けを支援する。
それでも、英語と言語間テストセットには大きなパフォーマンスギャップが残っている。
関連論文リスト
- Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages [6.635572580071933]
本稿では,モノリンガル,並列,ラベル付きデータを対象言語で必要とせずに動作可能な,単純かつ効率的なXLT-QG法を提案する。
提案手法は,GPT-3.5-turboに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-10-04T07:29:35Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Applying Multilingual Models to Question Answering (QA) [0.0]
本研究では,英語,フィンランド語,日本語の3言語を対象とした質問応答課題(QA)に基づいて,単言語および多言語言語モデルの性能について検討する。
我々は,(1)質問が応答可能かどうかを判断するタスクのモデルを開発し,(2)IOBタグを用いたコンテキスト内の回答テキストを識別する。
論文 参考訳(メタデータ) (2022-12-04T21:58:33Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。