論文の概要: MuCPAD: A Multi-Domain Chinese Predicate-Argument Dataset
- arxiv url: http://arxiv.org/abs/2205.06703v1
- Date: Fri, 13 May 2022 15:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 13:02:56.762701
- Title: MuCPAD: A Multi-Domain Chinese Predicate-Argument Dataset
- Title(参考訳): MuCPAD: マルチドメインの中国述語文データセット
- Authors: Yahui Liu and Haoping Yang and Chen Gong and Qingrong Xia and Zhenghua
Li and Min Zhang
- Abstract要約: 本稿では,多領域の中国語述語モデルである MuCPAD について述べる。
フレームフリーなアノテーション手法に基づいて、新しい述語のための複雑なフレームを書くことを避ける。
省略されたコア引数を明示的にアノテートして、より完全なセマンティック構造を復元する。
- 参考スコア(独自算出の注目度): 33.19724775717216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During the past decade, neural network models have made tremendous progress
on in-domain semantic role labeling (SRL). However, performance drops
dramatically under the out-of-domain setting. In order to facilitate research
on cross-domain SRL, this paper presents MuCPAD, a multi-domain Chinese
predicate-argument dataset, which consists of 30,897 sentences and 92,051
predicates from six different domains. MuCPAD exhibits three important
features. 1) Based on a frame-free annotation methodology, we avoid writing
complex frames for new predicates. 2) We explicitly annotate omitted core
arguments to recover more complete semantic structure, considering that
omission of content words is ubiquitous in multi-domain Chinese texts. 3) We
compile 53 pages of annotation guidelines and adopt strict double annotation
for improving data quality. This paper describes in detail the annotation
methodology and annotation process of MuCPAD, and presents in-depth data
analysis. We also give benchmark results on cross-domain SRL based on MuCPAD.
- Abstract(参考訳): 過去10年間、ニューラルネットワークモデルはドメイン内のセマンティックロールラベリング(SRL)に大きな進歩を遂げてきた。
しかし、ドメイン外設定でパフォーマンスは劇的に低下する。
クロスドメインSRLの研究を容易にするために,6つのドメインから30,897文と92,051述語からなる多ドメイン中国語述語データセット MuCPAD を提案する。
MuCPADには3つの重要な特徴がある。
1)フレームフリーなアノテーション手法に基づき,新しい述語に対する複雑なフレームの記述は避ける。
2) 内容語の省略は多分野の漢文においてユビキタスであることを考慮し, 省略された中核引数を明示的に注釈付けして, より完全な意味構造を復元する。
3) アノテーションガイドライン53ページをコンパイルし,データ品質向上のために厳格なダブルアノテーションを採用する。
本稿では,mucpadのアノテーション方法論とアノテーションプロセスの詳細を説明し,詳細なデータ分析を行う。
また,MUCPADに基づくクロスドメインSRLのベンチマーク結果を示す。
関連論文リスト
- Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception [10.614437503578856]
本稿では,文と段落の粒度を表すメタチャンキングの概念を紹介する。
Meta-Chunkingを実装するために,性能と速度のバランスをとるPerplexity (PPL) Chunkingを設計した。
11のデータセットで実施された実験により、Meta-Chunkingはシングルホップおよびマルチホップ質問応答のパフォーマンスをより効率的に改善できることが示された。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - A Benchmark for Cross-Domain Argumentative Stance Classification on Social Media [12.479554210753664]
論証的姿勢分類は、特定のトピックに対する著者の視点を特定する上で重要な役割を担っている。
既存のベンチマークは、単一のドメインからのものや、限られたトピックにフォーカスすることが多い。
我々は,人的アノテーションの必要性を回避するために,プラットフォームルール,手軽に利用可能な専門家によるコンテンツ,および大規模言語モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-11T15:20:11Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - Translation Transformers Rediscover Inherent Data Domains [0.0]
NMT変換器が学習した文表現を分析し,テキスト領域の情報を明示的に含んでいることを示す。
この内部情報は、その下にあるドメインの文を、監督なしでクラスタリングするのに十分であることを示す。
NMTモデルは、事前訓練された言語モデル(LM)と比較して、実際のドメインに整合したクラスタを生成することを示す。
論文 参考訳(メタデータ) (2021-09-16T10:58:13Z) - DaN+: Danish Nested Named Entities and Lexical Normalization [18.755176247223616]
本稿では,デンマークのネスト付き名前付きエンティティ(NE)と語彙正規化のための,新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介する。
我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。
以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。
論文 参考訳(メタデータ) (2021-05-24T14:35:21Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。