論文の概要: Chinese Discourse Annotation Reference Manual
- arxiv url: http://arxiv.org/abs/2212.06037v1
- Date: Tue, 11 Oct 2022 11:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-22 22:04:07.590566
- Title: Chinese Discourse Annotation Reference Manual
- Title(参考訳): 中国語談話注釈参考マニュアル
- Authors: Siyao Peng, Yang Janet Liu, Amir Zeldes
- Abstract要約: この文書は、中国語における修辞構造論(RST)の注釈に関する広範なガイドラインと例を提供している。
まず、RSTアノテーションのためのデータ準備のための前処理手順を紹介する。
第二に、テキストを初等談話単位(EDU)に分割するための統語的基準について議論する。
最後に、異なるジャンルにおける談話関係を定義し、区別する例を示す。
- 参考スコア(独自算出の注目度): 9.367612782346207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This document provides extensive guidelines and examples for Rhetorical
Structure Theory (RST) annotation in Mandarin Chinese. The guideline is divided
into three sections. We first introduce preprocessing steps to prepare data for
RST annotation. Secondly, we discuss syntactic criteria to segment texts into
Elementary Discourse Units (EDUs). Lastly, we provide examples to define and
distinguish discourse relations in different genres. We hope that this
reference manual can facilitate RST annotations in Chinese and accelerate the
development of the RST framework across languages.
- Abstract(参考訳): この文書は、中国語の修辞構造論(RST)アノテーションに関する広範なガイドラインと例を提供している。
ガイドラインは3つのセクションに分けられる。
まず、RSTアノテーションのためのデータ準備のための前処理手順を紹介する。
次に,テキストを初等談話単位(EDU)に分割するための統語的基準について議論する。
最後に、異なるジャンルの談話関係を定義し、区別するための例を示す。
このリファレンスマニュアルが中国語のrstアノテーションを促進し、言語横断的なrstフレームワークの開発を加速できることを願っている。
関連論文リスト
- Bilingual Rhetorical Structure Parsing with Large Parallel Annotations [5.439020425819001]
我々は,大規模で多様な英語GUM RSTコーパスに対して,パラレルなロシア語アノテーションを導入する。
我々のエンドツーエンドRTTは、英語とロシア語のコーパスで最先端の結果を得る。
我々の知る限り、この研究は、手動で注釈付けされた並列コーパス上での言語間エンドツーエンドのRTT解析の可能性を評価する最初のものである。
論文 参考訳(メタデータ) (2024-09-23T12:40:33Z) - MaiBaam Annotation Guidelines [21.10847426724405]
この文書は、バイエルンのコーパスであるMaiBaamのアノテーションガイドラインを提供する。
MaiBaamは、Universal Dependencies (UD)プロジェクトに属しており、一般およびドイツのUDバージョン2ガイドラインを詳述しています。
論文 参考訳(メタデータ) (2024-03-09T12:46:53Z) - FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - Is Argument Structure of Learner Chinese Understandable: A Corpus-Based
Analysis [8.883799596036484]
本稿では,中国語学習者における議論構造誤りのコーパスに基づく解析について述べる。
分析用データには、言語学習者が生成した文と、母語話者による補正が含まれている。
2人の高校生が手作業で作成したセマンティックロールラベリングアノテーションとデータを結合する。
論文 参考訳(メタデータ) (2023-08-17T21:10:04Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - Discourse Analysis for Evaluating Coherence in Video Paragraph Captions [99.37090317971312]
ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。
ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。
実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-17T04:23:08Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。