論文の概要: Annotation of Chinese Predicate Heads and Relevant Elements
- arxiv url: http://arxiv.org/abs/2103.12280v1
- Date: Tue, 23 Mar 2021 03:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 02:27:00.605849
- Title: Annotation of Chinese Predicate Heads and Relevant Elements
- Title(参考訳): 中国の述語頭と関連要素の注釈
- Authors: Yanping Chen and Yongbin Qin and Ruizhang Huang and Qinghua Zheng and
Ping Chen
- Abstract要約: 述語頭(predicate head)は、文の構造的中心としての役割を果たす言語表現である。
本稿では、中国の述語頭とその関連構文要素の注釈ガイドラインを開発する。
- 参考スコア(独自算出の注目度): 20.427035216455366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A predicate head is a verbal expression that plays a role as the structural
center of a sentence. Identifying predicate heads is critical to understanding
a sentence. It plays the leading role in organizing the relevant syntactic
elements in a sentence, including subject elements, adverbial elements, etc.
For some languages, such as English, word morphologies are valuable for
identifying predicate heads. However, Chinese offers no morphological
information to indicate words` grammatical roles. A Chinese sentence often
contains several verbal expressions; identifying the expression that plays the
role of the predicate head is not an easy task. Furthermore, Chinese sentences
are inattentive to structure and provide no delimitation between words.
Therefore, identifying Chinese predicate heads involves significant challenges.
In Chinese information extraction, little work has been performed in predicate
head recognition. No generally accepted evaluation dataset supports work in
this important area. This paper presents the first attempt to develop an
annotation guideline for Chinese predicate heads and their relevant syntactic
elements. This annotation guideline emphasizes the role of the predicate as the
structural center of a sentence. The design of relevant syntactic element
annotation also follows this principle. Many considerations are proposed to
achieve this goal, e.g., patterns of predicate heads, a flattened annotation
structure, and a simpler syntactic unit type. Based on the proposed annotation
guideline, more than 1,500 documents were manually annotated. The corpus will
be available online for public access. With this guideline and annotated
corpus, our goal is to broadly impact and advance the research in the area of
Chinese information extraction and to provide the research community with a
critical resource that has been lacking for a long time.
- Abstract(参考訳): 述語頭(predicate head)は、文の構造的中心としての役割を果たす言語表現である。
述語首の特定は文を理解するのに不可欠である。
主語要素、副詞要素などを含む文中の関連する統語要素を整理する上で、主要な役割を担っている。
英語など一部の言語では、単語形態学は述語頭を特定するのに有用である。
しかし、中国語は文法的な役割を示す形態的な情報を提供していない。
中国語の文には複数の動詞表現が含まれており、述語頭の役割を担う表現を特定することは容易ではない。
また、漢文は構造に不注意であり、語間関係は生じない。
したがって、中国の述語頭の識別には大きな困難が伴う。
中国語情報抽出では,述語頭部認識における研究はほとんど行われていない。
一般的に受け入れられる評価データセットは、この重要な領域での作業をサポートしません。
本稿では,中国の述語頭とその構文要素に対する注釈ガイドラインを開発するための最初の試みについて述べる。
この注釈ガイドラインは文の構造中心としての述語の役割を強調している。
関連する構文要素アノテーションの設計もこの原則に従う。
この目的を達成するために、例えば述語頭部のパターン、平らなアノテーション構造、より単純な構文単位型など、多くの考察がなされている。
提案した注釈ガイドラインに基づいて1500以上の文書が手作業で注釈付けされた。
コーパスはオンラインで公開されている。
このガイドラインと注釈付きコーパスにより、中国情報抽出分野の研究を広範囲に影響を与え、推進し、長い間欠落していた重要な資源を研究コミュニティに提供することが目的である。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Is Argument Structure of Learner Chinese Understandable: A Corpus-Based
Analysis [8.883799596036484]
本稿では,中国語学習者における議論構造誤りのコーパスに基づく解析について述べる。
分析用データには、言語学習者が生成した文と、母語話者による補正が含まれている。
2人の高校生が手作業で作成したセマンティックロールラベリングアノテーションとデータを結合する。
論文 参考訳(メタデータ) (2023-08-17T21:10:04Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - Discourse Context Predictability Effects in Hindi Word Order [14.88833412862455]
文中の単語と構文構造が次の文の語順にどのように影響するかを検討する。
我々は,言論に基づく多くの特徴と認知的特徴を用いて,依存関係の長さ,前提,情報状態などの予測を行う。
情報ステータスとLSTMに基づく談話予測が単語の順序選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2022-10-25T11:53:01Z) - Teacher Perception of Automatically Extracted Grammar Concepts for L2
Language Learning [91.49622922938681]
本稿では,文法の異なる側面の記述を自動的に発見・可視化する自動フレームワークを提案する。
具体的には、形態素構文と意味論に関する疑問に答える自然なテキストコーパスから記述を抽出する。
この手法をインド語、カンナダ語、マラタイ語に応用するが、これは英語とは異なり、十分に発達した教育資源を持たない。
論文 参考訳(メタデータ) (2022-06-10T14:52:22Z) - Representing `how you say' with `what you say': English corpus of
focused speech and text reflecting corresponding implications [10.103202030679844]
音声通信では、何かが語られる方法(パラ言語情報)は、何を言うか(言語情報)と同じくらい重要である
現在の音声翻訳システムは、発話が言語的に同一であれば、同じ翻訳を返す。
本稿では,語彙・文法機器を用いて,言語領域にパラ言語情報をマッピングする手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T12:29:22Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - An In-depth Study on Internal Structure of Chinese Words [34.864343591706984]
本研究は,中国語の単語の深い内部構造を,構文的関係を識別するための11のラベルを持つ依存木としてモデル化することを提案する。
中国語の Penn Treebank から 30K 以上の多字語からなる単語内構造木バンク (WIST) を手動で注釈する。
我々は,中国語の単語形成に関する知見を明らかにするために,WISTに関する詳細な,興味深い分析を行った。
論文 参考訳(メタデータ) (2021-06-01T09:09:51Z) - Do Context-Aware Translation Models Pay the Right Attention? [61.25804242929533]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文 参考訳(メタデータ) (2021-05-14T17:32:24Z) - A Corpus of Adpositional Supersenses for Mandarin Chinese [15.757892250956715]
マンダリン中国語ですべての表記が意味論的に注釈付けされたコーパスについて述べる。
提案手法は, 言語に依存しない意味的基準に従って, 超感覚の一般的な集合を定義する枠組みに適応する。
このスーパーセンスカテゴリーは、英語と構文的差異があるにもかかわらず、中国語の表記に適していることがわかった。
論文 参考訳(メタデータ) (2020-03-18T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。