論文の概要: CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale
and High Quality
- arxiv url: http://arxiv.org/abs/2306.11477v1
- Date: Tue, 20 Jun 2023 12:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:32:48.225891
- Title: CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale
and High Quality
- Title(参考訳): CATS: 大規模で高品質な現実的な中国語アンサーシーケンスデータセット
- Authors: Liang Li, Ruiying Geng, Chengyang Fang, Bing Li, Can Ma, Rongyu Cao,
Binhua Li, Fei Huang, Yongbin Li
- Abstract要約: 提案するCATSは,大規模かつ高品質な中国語応答列データセットである。
このデータセットは、実用的なTableQAシステムで回答のテキスト記述を生成することを目的としている。
2つのハイブリッド知識リソースのための共同符号化空間を確立するための統一グラフ変換手法を提案する。
- 参考スコア(独自算出の注目度): 42.246771022648765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are three problems existing in the popular data-to-text datasets.
First, the large-scale datasets either contain noise or lack real application
scenarios. Second, the datasets close to real applications are relatively small
in size. Last, current datasets bias in the English language while leaving
other languages underexplored. To alleviate these limitations, in this paper,
we present CATS, a pragmatic Chinese answer-to-sequence dataset with large
scale and high quality. The dataset aims to generate textual descriptions for
the answer in the practical TableQA system. Further, to bridge the structural
gap between the input SQL and table and establish better semantic alignments,
we propose a Unified Graph Transformation approach to establish a joint
encoding space for the two hybrid knowledge resources and convert this task to
a graph-to-text problem. The experiment results demonstrate the effectiveness
of our proposed method. Further analysis on CATS attests to both the high
quality and challenges of the dataset.
- Abstract(参考訳): 一般的なデータセットには3つの問題がある。
まず、大規模なデータセットはノイズを含むか、実際のアプリケーションシナリオを欠いている。
第二に、実際のアプリケーションに近いデータセットは比較的小さい。
最後に、現在のデータセットは、他の言語を過小評価しながら、英語に偏っている。
これらの制約を緩和するために,本論文では,大規模で高品質な実効的な中国語応答列データセットであるCATSを提案する。
このデータセットは、実用的なTableQAシステムで回答のテキスト記述を生成することを目的としている。
さらに、入力SQLとテーブル間の構造的ギャップを埋め、セマンティックアライメントを改善するために、2つのハイブリッドな知識リソースのための共同符号化空間を確立し、このタスクをグラフからテキストに変換する統一グラフ変換手法を提案する。
実験の結果,提案手法の有効性が示された。
CATSに関するさらなる分析は、データセットの高品質と課題の両方を証明している。
関連論文リスト
- ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information [29.57708536491853]
大規模かつ高品質な中国語データセットを多次元かつきめ細かい情報で構築するための新しいツールチェーン MDFG-tool を提案する。
我々は,3.8TBの漢文テキスト2.0を公開し,各テキストは品質スコア,ドメインラベル,毒性ラベル,毒性スコアに関連付けられている。
論文 参考訳(メタデータ) (2024-11-29T12:48:49Z) - GT2Vec: Large Language Models as Multi-Modal Encoders for Text and Graph-Structured Data [42.18348019901044]
GT2Vecは、大規模言語モデルを利用して、テキストとグラフデータを共同でエンコードするフレームワークである。
従来の作業とは異なり、グラフやテキスト空間をより効果的に整合させるために、コントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-10-15T03:40:20Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation [8.216976747904726]
EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。
私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
論文 参考訳(メタデータ) (2021-10-30T15:39:20Z) - Does Putting a Linguist in the Loop Improve NLU Data Collection? [34.34874979524489]
クラウドソーシングNLPデータセットには、データ収集が完了した後にのみ識別される体系的なギャップとバイアスが含まれます。
テストケースとして自然言語を推論し、データ収集中に言語学者をループに配置することが有益かどうかを問う。
論文 参考訳(メタデータ) (2021-04-15T00:31:10Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。