論文の概要: Quantifying syntax similarity with a polynomial representation of
dependency trees
- arxiv url: http://arxiv.org/abs/2211.07005v1
- Date: Sun, 13 Nov 2022 19:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:49:57.353230
- Title: Quantifying syntax similarity with a polynomial representation of
dependency trees
- Title(参考訳): 依存木の多項式表現による構文類似性の定量化
- Authors: Pengyu Liu, Tinghao Feng, Rui Liu
- Abstract要約: 依存文法を表現するために木構造を区別するグラフを導入する。
文中の単語の係り受け構造と係り受け関係に関する正確かつ包括的な情報を符号化する。
- 参考スコア(独自算出の注目度): 4.1542266070946745
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a graph polynomial that distinguishes tree structures to
represent dependency grammar and a measure based on the polynomial
representation to quantify syntax similarity. The polynomial encodes accurate
and comprehensive information about the dependency structure and dependency
relations of words in a sentence. We apply the polynomial-based methods to
analyze sentences in the Parallel Universal Dependencies treebanks.
Specifically, we compare the syntax of sentences and their translations in
different languages, and we perform a syntactic typology study of available
languages in the Parallel Universal Dependencies treebanks. We also demonstrate
and discuss the potential of the methods in measuring syntax diversity of
corpora.
- Abstract(参考訳): 本稿では,依存文法を表す木構造と,構文類似性を定量化する多項式表現に基づく測度を区別するグラフ多項式を提案する。
多項式は、文中の単語の係り受け構造と係り受け関係に関する正確かつ包括的な情報を符号化する。
多項式に基づく手法を並列普遍依存木バンクの文解析に適用する。
具体的には、異なる言語における文の構文とそれらの翻訳を比較し、パラレル普遍依存木バンクにおける利用可能な言語の構文的タイポロジー研究を行う。
また,コーパスの構文多様性を計測する手法の可能性を実証し,議論する。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - A Compositional Typed Semantics for Universal Dependencies [26.65442947858347]
本稿では,語彙項目に対する意味型と論理形式を構成的,原則的,言語に依存しないシステムであるUD Type Calculusを紹介する。
本稿では,UD型計算の本質的特徴について説明する。
既存の文のコーパスとその論理形式について,UD-TCがベースラインに匹敵する意味を生成できることを示す。
論文 参考訳(メタデータ) (2024-03-02T11:58:24Z) - A Joint Matrix Factorization Analysis of Multilingual Representations [28.751144371901958]
多言語モデルと単言語モデルの潜在表現を比較するために,結合行列の分解に基づく解析ツールを提案する。
我々は,多言語事前学習モデルを用いて学習した表現において,形態素的特徴がどのように反映されるかについて検討した。
論文 参考訳(メタデータ) (2023-10-24T04:43:45Z) - Assessment of Pre-Trained Models Across Languages and Grammars [7.466159270333272]
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元することを目的としている。
その結果、事前学習された単語ベクトルは、依存関係よりも構文の連続表現を好まないことが明らかとなった。
プレトレーニングデータ中の言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。
論文 参考訳(メタデータ) (2023-09-20T09:23:36Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Oracle Linguistic Graphs Complement a Pretrained Transformer Language
Model: A Cross-formalism Comparison [13.31232311913236]
言語グラフ表現が神経言語モデリングを補完し改善する程度について検討する。
全体としては、セマンティックな選挙区構造は言語モデリングのパフォーマンスに最も有用である。
論文 参考訳(メタデータ) (2021-12-15T04:29:02Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。