論文の概要: MATINF: A Jointly Labeled Large-Scale Dataset for Classification,
Question Answering and Summarization
- arxiv url: http://arxiv.org/abs/2004.12302v2
- Date: Sat, 23 May 2020 06:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 13:08:49.197237
- Title: MATINF: A Jointly Labeled Large-Scale Dataset for Classification,
Question Answering and Summarization
- Title(参考訳): MATINF: 分類、質問回答、要約のための共同ラベル付き大規模データセット
- Authors: Canwen Xu and Jiaxin Pei and Hongtao Wu and Yiyu Liu and Chenliang Li
- Abstract要約: 分類,質問応答,要約のための,最初の共同ラベル付き大規模データセットであるMATINFを提案する。
MATINFには、人間ラベル付きカテゴリとユーザ生成の質問記述を備えた1億7700万の質問回答ペアが含まれている。
このような豊富な情報に基づいて、MATINFは分類、質問応答、要約を含む3つの主要なNLPタスクに適用できる。
- 参考スコア(独自算出の注目度): 33.103985966585064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale datasets have vastly facilitated the development in
nearly all domains of Natural Language Processing. However, there is currently
no cross-task dataset in NLP, which hinders the development of multi-task
learning. We propose MATINF, the first jointly labeled large-scale dataset for
classification, question answering and summarization. MATINF contains 1.07
million question-answer pairs with human-labeled categories and user-generated
question descriptions. Based on such rich information, MATINF is applicable for
three major NLP tasks, including classification, question answering, and
summarization. We benchmark existing methods and a novel multi-task baseline
over MATINF to inspire further research. Our comprehensive comparison and
experiments over MATINF and other datasets demonstrate the merits held by
MATINF.
- Abstract(参考訳): 近年、大規模データセットは自然言語処理のほぼすべての領域で開発を大いに促進している。
しかし、現在NLPにはクロスタスクデータセットは存在せず、マルチタスク学習の開発を妨げている。
分類,質問応答,要約のための,最初の共同ラベル付き大規模データセットであるMATINFを提案する。
MATINFには、人間ラベル付きカテゴリとユーザ生成の質問記述を備えた1億7700万の質問回答ペアが含まれている。
このような豊富な情報に基づいて、MATINFは分類、質問応答、要約を含む3つの主要なNLPタスクに適用できる。
我々は、MATINF上で既存の手法と新しいマルチタスクベースラインをベンチマークし、さらなる研究を促す。
MATINFや他のデータセットに対する包括的な比較実験は、MATINFが持つメリットを実証している。
関連論文リスト
- SnapNTell: Enhancing Entity-Centric Visual Question Answering with
Retrieval Augmented Multimodal LLM [48.15067480282839]
本研究は、エンティティ中心のVQAに特化して開発された、textbfSnapNTellという新しい評価ベンチマークを導入する。
データセットは22の主要なカテゴリに分けられ、合計で7,568のユニークなエンティティが含まれている。
提案手法はSnapNTellデータセットの既存手法を著しく上回り,BELURTスコアの66.5%向上を達成した。
論文 参考訳(メタデータ) (2024-03-07T18:38:17Z) - A Dataset of Open-Domain Question Answering with Multiple-Span Answers [11.291635421662338]
マルチスパン回答抽出(Multi-span answer extract)は、マルチスパン質問応答(MSQA)のタスクとしても知られ、現実世界のアプリケーションにとって重要な課題である。
中国語ではMSQAベンチマークが公開されていない。
CLEANは、中国の総合的なマルチスパン質問応答データセットである。
論文 参考訳(メタデータ) (2024-02-15T13:03:57Z) - RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal
Sentiment Classification [70.9087014537896]
目的指向型マルチモーダル感性分類(TMSC)は,学者の間でも注目されている。
この問題の原因を明らかにするために,データセットの広範な実験的評価と詳細な分析を行う。
論文 参考訳(メタデータ) (2023-10-14T14:52:37Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Multi-Task Hierarchical Learning Based Network Traffic Analytics [18.04195092141071]
約1.3Mのラベル付きフローを含む3つのオープンデータセットを提示する。
我々は、マルウェア検出とアプリケーション分類の両方を含む、ネットワークトラフィック分析の幅広い側面に焦点を当てる。
成長を続けるにつれて、データセットはAI駆動の再現可能なネットワークフロー分析研究の共通基盤として機能することを期待しています。
論文 参考訳(メタデータ) (2021-06-05T02:25:59Z) - Feature Ranking for Semi-supervised Learning [3.1380888953704984]
特徴ランクの半教師付き学習を提案する。
我々の知る限りでは、半教師付き構造的出力予測コンテキストにおける特徴ランク付けのタスクを取り扱うのはこれが初めてである。
ランダムフォレストは分類のようなタスクでベスト、回帰のようなタスクではエクストラPCTがベストです。
論文 参考訳(メタデータ) (2020-08-10T07:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。