論文の概要: A Corpus of Adpositional Supersenses for Mandarin Chinese
- arxiv url: http://arxiv.org/abs/2003.08437v1
- Date: Wed, 18 Mar 2020 18:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 12:58:04.842060
- Title: A Corpus of Adpositional Supersenses for Mandarin Chinese
- Title(参考訳): 中国語における代用スーパーセンスのコーパス
- Authors: Siyao Peng, Yang Liu, Yilun Zhu, Austin Blodgett, Yushi Zhao, Nathan
Schneider
- Abstract要約: マンダリン中国語ですべての表記が意味論的に注釈付けされたコーパスについて述べる。
提案手法は, 言語に依存しない意味的基準に従って, 超感覚の一般的な集合を定義する枠組みに適応する。
このスーパーセンスカテゴリーは、英語と構文的差異があるにもかかわらず、中国語の表記に適していることがわかった。
- 参考スコア(独自算出の注目度): 15.757892250956715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adpositions are frequent markers of semantic relations, but they are highly
ambiguous and vary significantly from language to language. Moreover, there is
a dearth of annotated corpora for investigating the cross-linguistic variation
of adposition semantics, or for building multilingual disambiguation systems.
This paper presents a corpus in which all adpositions have been semantically
annotated in Mandarin Chinese; to the best of our knowledge, this is the first
Chinese corpus to be broadly annotated with adposition semantics. Our approach
adapts a framework that defined a general set of supersenses according to
ostensibly language-independent semantic criteria, though its development
focused primarily on English prepositions (Schneider et al., 2018). We find
that the supersense categories are well-suited to Chinese adpositions despite
syntactic differences from English. On a Mandarin translation of The Little
Prince, we achieve high inter-annotator agreement and analyze semantic
correspondences of adposition tokens in bitext.
- Abstract(参考訳): 格付けは、しばしば意味関係の指標となるが、非常に曖昧であり、言語によって大きく異なる。
さらに,形容詞意味論の言語間差異を調査したり,多言語的曖昧化システムを構築するための注釈付きコーパスのデジェストが存在する。
本稿は,中国語における全ての格付けが意味論的にアノテートされたコーパスについて述べる。
提案手法は,言語に依存しないセマンティックな基準に従って,一般的なスーパーセンスの集合を定義する枠組みに適応するが,その開発は主に英語の前置詞に焦点を当てている(Schneider et al., 2018)。
このスーパーセンスカテゴリーは、英語と構文的差異があるにもかかわらず、中国語の表記に適していることがわかった。
The Little Prince』のマンダリン翻訳では、高いアノテータ間合意を達成し、ビットクストの付加トークンの意味対応を解析する。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Proposition from the Perspective of Chinese Language: A Chinese
Proposition Classification Evaluation Benchmark [21.91454409571424]
本稿では言語学と論理学に基づく総合的な多段階命題分類システムを提案する。
複数のドメインから大規模な中国語命題データセットPEACEを作成する。
その結果,命題の意味的特徴を適切にモデル化することの重要性が示された。
論文 参考訳(メタデータ) (2023-09-18T09:18:39Z) - Is Argument Structure of Learner Chinese Understandable: A Corpus-Based
Analysis [8.883799596036484]
本稿では,中国語学習者における議論構造誤りのコーパスに基づく解析について述べる。
分析用データには、言語学習者が生成した文と、母語話者による補正が含まれている。
2人の高校生が手作業で作成したセマンティックロールラベリングアノテーションとデータを結合する。
論文 参考訳(メタデータ) (2023-08-17T21:10:04Z) - Discourse Representation Structure Parsing for Chinese [8.846860617823005]
本研究では,中国語意味表現のためのラベル付きデータがない場合の中国語意味解析の実現可能性について検討する。
そこで本研究では,中国語意味解析のためのテストスイートを提案し,解析性能の詳細な評価を行う。
実験の結果,中国語の意味解析の難易度は,主に副詞が原因であることが示唆された。
論文 参考訳(メタデータ) (2023-06-16T09:47:45Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Annotation of Chinese Predicate Heads and Relevant Elements [20.427035216455366]
述語頭(predicate head)は、文の構造的中心としての役割を果たす言語表現である。
本稿では、中国の述語頭とその関連構文要素の注釈ガイドラインを開発する。
論文 参考訳(メタデータ) (2021-03-23T03:11:59Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Unique Chinese Linguistic Phenomena [4.020523898765406]
言語学は、一般性、安定性、国籍の独特の特徴を持っている。
中国語と英語の言語学の多様性は、主に形態学と文法に反映されている。
論文 参考訳(メタデータ) (2020-02-23T12:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。