論文の概要: CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale
and High Quality
- arxiv url: http://arxiv.org/abs/2306.11477v1
- Date: Tue, 20 Jun 2023 12:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:32:48.225891
- Title: CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale
and High Quality
- Title(参考訳): CATS: 大規模で高品質な現実的な中国語アンサーシーケンスデータセット
- Authors: Liang Li, Ruiying Geng, Chengyang Fang, Bing Li, Can Ma, Rongyu Cao,
Binhua Li, Fei Huang, Yongbin Li
- Abstract要約: 提案するCATSは,大規模かつ高品質な中国語応答列データセットである。
このデータセットは、実用的なTableQAシステムで回答のテキスト記述を生成することを目的としている。
2つのハイブリッド知識リソースのための共同符号化空間を確立するための統一グラフ変換手法を提案する。
- 参考スコア(独自算出の注目度): 42.246771022648765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are three problems existing in the popular data-to-text datasets.
First, the large-scale datasets either contain noise or lack real application
scenarios. Second, the datasets close to real applications are relatively small
in size. Last, current datasets bias in the English language while leaving
other languages underexplored. To alleviate these limitations, in this paper,
we present CATS, a pragmatic Chinese answer-to-sequence dataset with large
scale and high quality. The dataset aims to generate textual descriptions for
the answer in the practical TableQA system. Further, to bridge the structural
gap between the input SQL and table and establish better semantic alignments,
we propose a Unified Graph Transformation approach to establish a joint
encoding space for the two hybrid knowledge resources and convert this task to
a graph-to-text problem. The experiment results demonstrate the effectiveness
of our proposed method. Further analysis on CATS attests to both the high
quality and challenges of the dataset.
- Abstract(参考訳): 一般的なデータセットには3つの問題がある。
まず、大規模なデータセットはノイズを含むか、実際のアプリケーションシナリオを欠いている。
第二に、実際のアプリケーションに近いデータセットは比較的小さい。
最後に、現在のデータセットは、他の言語を過小評価しながら、英語に偏っている。
これらの制約を緩和するために,本論文では,大規模で高品質な実効的な中国語応答列データセットであるCATSを提案する。
このデータセットは、実用的なTableQAシステムで回答のテキスト記述を生成することを目的としている。
さらに、入力SQLとテーブル間の構造的ギャップを埋め、セマンティックアライメントを改善するために、2つのハイブリッドな知識リソースのための共同符号化空間を確立し、このタスクをグラフからテキストに変換する統一グラフ変換手法を提案する。
実験の結果,提案手法の有効性が示された。
CATSに関するさらなる分析は、データセットの高品質と課題の両方を証明している。
関連論文リスト
- Unleashing the Power of LLMs as Multi-Modal Encoders for Text and Graph-Structured Data [42.18348019901044]
グラフ構造化情報は、言語モデルを強化するためのリッチなコンテキスト情報を提供する。
グラフとテキストの埋め込みを統合する既存の方法は、これらのモダリティの不均一性を完全に活用する能力に制限されている。
我々は,大規模言語モデル(LLM)を利用してテキストとグラフデータを共同符号化するフレームワークであるJanusを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:40:20Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation [8.216976747904726]
EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。
私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
論文 参考訳(メタデータ) (2021-10-30T15:39:20Z) - Towards More Equitable Question Answering Systems: How Much More Data Do
You Need? [15.401330338654203]
ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。
具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。
我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
論文 参考訳(メタデータ) (2021-05-28T21:32:04Z) - Does Putting a Linguist in the Loop Improve NLU Data Collection? [34.34874979524489]
クラウドソーシングNLPデータセットには、データ収集が完了した後にのみ識別される体系的なギャップとバイアスが含まれます。
テストケースとして自然言語を推論し、データ収集中に言語学者をループに配置することが有益かどうかを問う。
論文 参考訳(メタデータ) (2021-04-15T00:31:10Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。