Fugu-MT 論文翻訳(概要): CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale and High Quality

論文の概要: CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale and High Quality

arxiv url: http://arxiv.org/abs/2306.11477v1
Date: Tue, 20 Jun 2023 12:02:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 14:32:48.225891
Title: CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale and High Quality
Title（参考訳）: CATS: 大規模で高品質な現実的な中国語アンサーシーケンスデータセット
Authors: Liang Li, Ruiying Geng, Chengyang Fang, Bing Li, Can Ma, Rongyu Cao, Binhua Li, Fei Huang, Yongbin Li
Abstract要約: 提案するCATSは,大規模かつ高品質な中国語応答列データセットである。このデータセットは、実用的なTableQAシステムで回答のテキスト記述を生成することを目的としている。 2つのハイブリッド知識リソースのための共同符号化空間を確立するための統一グラフ変換手法を提案する。
参考スコア（独自算出の注目度）: 42.246771022648765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There are three problems existing in the popular data-to-text datasets. First, the large-scale datasets either contain noise or lack real application scenarios. Second, the datasets close to real applications are relatively small in size. Last, current datasets bias in the English language while leaving other languages underexplored. To alleviate these limitations, in this paper, we present CATS, a pragmatic Chinese answer-to-sequence dataset with large scale and high quality. The dataset aims to generate textual descriptions for the answer in the practical TableQA system. Further, to bridge the structural gap between the input SQL and table and establish better semantic alignments, we propose a Unified Graph Transformation approach to establish a joint encoding space for the two hybrid knowledge resources and convert this task to a graph-to-text problem. The experiment results demonstrate the effectiveness of our proposed method. Further analysis on CATS attests to both the high quality and challenges of the dataset.
Abstract（参考訳）: 一般的なデータセットには3つの問題がある。まず、大規模なデータセットはノイズを含むか、実際のアプリケーションシナリオを欠いている。第二に、実際のアプリケーションに近いデータセットは比較的小さい。最後に、現在のデータセットは、他の言語を過小評価しながら、英語に偏っている。これらの制約を緩和するために,本論文では,大規模で高品質な実効的な中国語応答列データセットであるCATSを提案する。このデータセットは、実用的なTableQAシステムで回答のテキスト記述を生成することを目的としている。さらに、入力SQLとテーブル間の構造的ギャップを埋め、セマンティックアライメントを改善するために、2つのハイブリッドな知識リソースのための共同符号化空間を確立し、このタスクをグラフからテキストに変換する統一グラフ変換手法を提案する。実験の結果,提案手法の有効性が示された。 CATSに関するさらなる分析は、データセットの高品質と課題の両方を証明している。

関連論文リスト

ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information [29.57708536491853]
大規模かつ高品質な中国語データセットを多次元かつきめ細かい情報で構築するための新しいツールチェーン MDFG-tool を提案する。我々は,3.8TBの漢文テキスト2.0を公開し,各テキストは品質スコア,ドメインラベル,毒性ラベル,毒性スコアに関連付けられている。
論文参考訳（メタデータ） (2024-11-29T12:48:49Z)
Unleashing the Power of LLMs as Multi-Modal Encoders for Text and Graph-Structured Data [42.18348019901044]
グラフ構造化情報は、言語モデルを強化するためのリッチなコンテキスト情報を提供する。グラフとテキストの埋め込みを統合する既存の方法は、これらのモダリティの不均一性を完全に活用する能力に制限されている。我々は,大規模言語モデル(LLM)を利用してテキストとグラフデータを共同符号化するフレームワークであるJanusを提案する。
論文参考訳（メタデータ） (2024-10-15T03:40:20Z)
Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文参考訳（メタデータ） (2024-06-14T16:50:29Z)
PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-04-24T15:46:26Z)
Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-17T02:53:21Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
EventNarrative: A large-scale Event-centric Dataset for Knowledge Graph-to-Text Generation [8.216976747904726]
EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
論文参考訳（メタデータ） (2021-10-30T15:39:20Z)
Towards More Equitable Question Answering Systems: How Much More Data Do You Need? [15.401330338654203]
ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
論文参考訳（メタデータ） (2021-05-28T21:32:04Z)
Does Putting a Linguist in the Loop Improve NLU Data Collection? [34.34874979524489]
クラウドソーシングNLPデータセットには、データ収集が完了した後にのみ識別される体系的なギャップとバイアスが含まれます。テストケースとして自然言語を推論し、データ収集中に言語学者をループに配置することが有益かどうかを問う。
論文参考訳（メタデータ） (2021-04-15T00:31:10Z)
Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。 MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文参考訳（メタデータ） (2020-10-23T20:09:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。