論文の概要: GCDT: A Chinese RST Treebank for Multigenre and Multilingual Discourse
Parsing
- arxiv url: http://arxiv.org/abs/2210.10449v1
- Date: Wed, 19 Oct 2022 10:27:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:20:41.633590
- Title: GCDT: A Chinese RST Treebank for Multigenre and Multilingual Discourse
Parsing
- Title(参考訳): GCDT:多言語・多言語対話解析のための中国のRCTツリーバンク
- Authors: Siyao Peng, Yang Janet Liu, Amir Zeldes
- Abstract要約: GCDTは、修辞構造理論(RST)の枠組みにおいて、中国語における最大の階層的談話木バンクである
本稿では,このデータセットの解析実験について報告する。例えば,中国語のRST解析のための最新技術(SOTA)スコアと,英語のGUMデータセットに対するRTT解析である。
- 参考スコア(独自算出の注目度): 9.367612782346207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A lack of large-scale human-annotated data has hampered the hierarchical
discourse parsing of Chinese. In this paper, we present GCDT, the largest
hierarchical discourse treebank for Mandarin Chinese in the framework of
Rhetorical Structure Theory (RST). GCDT covers over 60K tokens across five
genres of freely available text, using the same relation inventory as
contemporary RST treebanks for English. We also report on this dataset's
parsing experiments, including state-of-the-art (SOTA) scores for Chinese RST
parsing and RST parsing on the English GUM dataset, using cross-lingual
training in Chinese and English with multilingual embeddings.
- Abstract(参考訳): 大規模な人間の注釈データがないため、中国語の階層的な言説解析が妨げられている。
本稿では,中国語における最大の階層的談話木バンクであるGCDTを,修辞構造理論(RST)の枠組みで紹介する。
GCDTは5つのジャンルにまたがって60K以上のトークンをカバーしており、現代英語のRTTツリーバンクと同じ関係性を持つ。
また,このデータセットの構文解析実験について報告し,多言語組込みによる中国語と英語の言語間学習を用いて,中国語rstパースと英語ガムデータセットのrstパースのための最新スコア (sota) を報告した。
関連論文リスト
- Discourse Representation Structure Parsing for Chinese [8.846860617823005]
本研究では,中国語意味表現のためのラベル付きデータがない場合の中国語意味解析の実現可能性について検討する。
そこで本研究では,中国語意味解析のためのテストスイートを提案し,解析性能の詳細な評価を行う。
実験の結果,中国語の意味解析の難易度は,主に副詞が原因であることが示唆された。
論文 参考訳(メタデータ) (2023-06-16T09:47:45Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts:
The Paragraph-level Topic Representation, Corpus, and Benchmark [68.37789691077892]
タイトル,サブヘッダ,段落を含む階層的な段落レベルのトピック構造表現を導入する。
我々は,これまでで最大であった4倍の大きさの中国段落レベルのトピック構造コーパス(CPTS)を構築した。
我々は,2つの基本課題(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性について,いくつかの強いベースラインで検証し,その有効性は下流タスクにおいて予め確認されている:談話解析である。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Joint Chinese Word Segmentation and Span-based Constituency Parsing [11.080040070201608]
本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:19:00Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - Multilingual AMR Parsing with Noisy Knowledge Distillation [68.01173640691094]
知識蒸留の観点から多言語AMR解析について検討し,既存の英語を教師として利用して多言語AMRを学習し,改善することを目的とする。
蒸留成功の鍵はノイズ入出力と正確な出力である。
論文 参考訳(メタデータ) (2021-09-30T15:13:48Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - Multilingual Neural RST Discourse Parsing [24.986030179701405]
本稿では,多言語ベクトル表現とセグメントレベルの翻訳によるニューラル言語間対話を確立するための2つの手法について検討する。
実験結果から,両手法は訓練データに制限があっても有効であり,言語横断的,文書レベルの談話解析における最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-12-03T05:03:38Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。