論文の概要: Multilingual Compositional Wikidata Questions
- arxiv url: http://arxiv.org/abs/2108.03509v1
- Date: Sat, 7 Aug 2021 19:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 09:52:16.660423
- Title: Multilingual Compositional Wikidata Questions
- Title(参考訳): 多言語構成ウィキデータ質問
- Authors: Ruixiang Cui, Rahul Aralikatte, Heather Lent, Daniel Hershcovich
- Abstract要約: ウィキデータに基づく複数言語で並列な問合せ対のデータセットを作成する手法を提案する。
このデータを使って、ヘブライ語、カンナダ語、中国語、英語のセマンティクスをトレーニングし、多言語セマンティクス解析の現在の強みと弱点をよりよく理解します。
- 参考スコア(独自算出の注目度): 9.602430657819564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic parsing allows humans to leverage vast knowledge resources through
natural interaction. However, parsers are mostly designed for and evaluated on
English resources, such as CFQ (Keysers et al., 2020), the current standard
benchmark based on English data generated from grammar rules and oriented
towards Freebase, an outdated knowledge base. We propose a method for creating
a multilingual, parallel dataset of question-query pairs, grounded in Wikidata,
and introduce such a dataset called Compositional Wikidata Questions (CWQ). We
utilize this data to train and evaluate semantic parsers for Hebrew, Kannada,
Chinese and English, to better understand the current strengths and weaknesses
of multilingual semantic parsing. Experiments on zero-shot cross-lingual
transfer demonstrate that models fail to generate valid queries even with
pretrained multilingual encoders. Our methodology, dataset and results will
facilitate future research on semantic parsing in more realistic and diverse
settings than has been possible with existing resources.
- Abstract(参考訳): セマンティック解析により、人間は自然な相互作用を通じて膨大な知識資源を活用できる。
しかし、パーサーは主に、文法規則から生成された英語データに基づいた現在の標準ベンチマークであるcfq(keysers et al., 2020)のような英語リソース向けに設計され、評価されている。
本稿では,ウィキデータに基づく複数言語で並列な問合せペアのデータセットを作成する手法を提案し,構成ウィキデータ質問 (CWQ) と呼ばれるデータセットを提案する。
このデータを用いて,ヘブライ語,カンナダ語,中国語,英語のセマンティクスパーサーを訓練し,評価し,多言語セマンティクス解析の強みと弱みをよりよく理解する。
ゼロショットクロスリンガルトランスファーの実験では、事前訓練された多言語エンコーダでもモデルが有効なクエリを生成していないことが示されている。
我々の方法論、データセット、そしてその結果は、既存のリソースよりも現実的で多様な設定でのセマンティック解析の今後の研究に役立つだろう。
関連論文リスト
- PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification [0.0]
関係分類の現在のアプローチは、主に英語に焦点を当てている。
本稿では,多言語BERTに基づくベースラインモデルと,新しい多言語事前学習設定の2つの言語間関係分類モデルを提案する。
評価のために、英語、フランス語、ドイツ語、スペイン語、トルコ語における言語間関係分類のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-10-19T11:08:16Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。