論文の概要: The distribution of syntactic dependency distances
- arxiv url: http://arxiv.org/abs/2211.14620v1
- Date: Sat, 26 Nov 2022 17:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:27:13.603301
- Title: The distribution of syntactic dependency distances
- Title(参考訳): 構文的依存距離の分布
- Authors: Sonia Petrini and Ramon Ferrer-i-Cancho
- Abstract要約: 我々は,構文的依存距離の実際の分布のキャラクタリゼーションに寄与する。
ブレークポイント後の確率の減衰を許容する新しい二重指数モデルを提案する。
2つの登録モデルが、私たちが検討した20言語の中で、最も可能性の高いモデルであることが分かりました。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The syntactic structure of a sentence can be represented as a graph where
vertices are words and edges indicate syntactic dependencies between them. In
this setting, the distance between two syntactically linked words can be
defined as the difference between their positions. Here we want to contribute
to the characterization of the actual distribution of syntactic dependency
distances, and unveil its relationship with short-term memory limitations. We
propose a new double-exponential model in which decay in probability is allowed
to change after a break-point. This transition could mirror the transition from
the processing of words chunks to higher-level structures. We find that a
two-regime model -- where the first regime follows either an exponential or a
power-law decay -- is the most likely one in all 20 languages we considered,
independently of sentence length and annotation style. Moreover, the
break-point is fairly stable across languages and averages values of 4-5 words,
suggesting that the amount of words that can be simultaneously processed
abstracts from the specific language to a high degree. Finally, we give an
account of the relation between the best estimated model and the closeness of
syntactic dependencies, as measured by a recently introduced optimality score.
- Abstract(参考訳): 文の構文構造は、頂点が単語であり、辺がそれらの間の構文的依存関係を示すグラフとして表すことができる。
この設定では、2つの構文的にリンクされた単語間の距離をそれらの位置の差として定義することができる。
ここでは,構文依存距離の実際の分布のキャラクタリゼーションに寄与し,短期記憶量制限との関係を明らかにする。
本稿では,分岐点の後に確率の減衰を許容する新しい二重指数モデルを提案する。
この遷移は、単語チャンクの処理から上位構造への遷移を反映する可能性がある。
第1の体制が指数的あるいは強大な崩壊をたどる2段階のモデルが、文の長さとアノテーションのスタイルとは無関係に、私たちが考慮した20の言語の中で最も重要なモデルであることがわかった。
さらに、ブレークポイントは言語間でかなり安定しており、平均値は4-5語であり、特定の言語から高い程度に同時処理できる単語の量を示している。
最後に,最近導入された最適度スコアで測定した最適な推定モデルと構文依存の密接性との関係について考察する。
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Syntactic Substitutability as Unsupervised Dependency Syntax [31.488677474152794]
依存関係関係や構文置換可能性の定義において、より一般的な性質を暗黙的にモデル化する。
この性質は、依存関係の両端にある単語が、同じカテゴリの単語で置き換えられるという事実を捉えている。
使用する代替品の数を増やすことで、自然データに対する解析精度が向上することを示す。
論文 参考訳(メタデータ) (2022-11-29T09:01:37Z) - Universality and diversity in word patterns [0.0]
本稿では,11言語を対象とした語彙統計関係の分析を行う。
言語が単語関係を表現するために利用する多種多様な方法が、ユニークなパターン分布を生み出していることがわかった。
論文 参考訳(メタデータ) (2022-08-23T20:03:27Z) - Language Models Explain Word Reading Times Better Than Empirical
Predictability [20.38397241720963]
認知読解研究における従来のアプローチは、文章の文脈から単語を予測することは、完結確率によって最もよく捉えられると仮定している。
確率言語モデルは、CCPよりも構文的および意味的効果の深い説明を提供する。
現在の単語のN-gramとRNN確率は、トピックモデルやCCPと比較して、より一貫して読み出し性能を予測できる。
論文 参考訳(メタデータ) (2022-02-02T16:38:43Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。