論文の概要: Strahler Number of Natural Language Sentences in Comparison with Random
Trees
- arxiv url: http://arxiv.org/abs/2307.02697v2
- Date: Thu, 10 Aug 2023 07:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 15:26:32.638388
- Title: Strahler Number of Natural Language Sentences in Comparison with Random
Trees
- Title(参考訳): ランダム木との比較による自然言語文のストラー数
- Authors: Kumiko Tanaka-Ishii and Akira Tanaka
- Abstract要約: ストラー数は当初、河川分岐の複雑さを特徴づけるために提案された。
本稿では,自然言語文木構造に対するStrahler数の上限と下限の計算を提案する。
- 参考スコア(独自算出の注目度): 10.013236603932778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Strahler number was originally proposed to characterize the complexity of
river bifurcation and has found various applications. This article proposes
computation of the Strahler number's upper and lower limits for natural
language sentence tree structures. Through empirical measurements across
grammatically annotated data, the Strahler number of natural language sentences
is shown to be almost 3 or 4, similarly to the case of river bifurcation as
reported by Strahler (1957). From the theory behind the number, we show that it
is one kind of lower limit on the amount of memory required to process
sentences. We consider the Strahler number to provide reasoning that explains
reports showing that the number of required memory areas to process sentences
is 3 to 4 for parsing (Abney and Johnson, 1991; Schuler et al., 2010), and
reports indicating a psychological "magical number" of 3 to 5 (Cowan, 2001). An
analytical and empirical analysis shows that the Strahler number is not
constant but grows logarithmically; therefore, the Strahler number of sentences
derives from the range of sentence lengths. Furthermore, the Strahler number is
not different for random trees, which could suggest that its origin is not
specific to natural language.
- Abstract(参考訳): ストラー数は当初、河川分岐の複雑さを特徴付けるために提案され、様々な応用を見出した。
本稿では,自然言語文木構造に対するシュトララー数の上限と下限の計算を提案する。
文法的にアノテートされたデータによる経験的な測定により、ストラフラーの自然言語文の数は、ストラフラー (1957) が報告したように川の分岐の例と同様に、ほぼ3または4であると示される。
この数値の背後にある理論から、文を処理するのに必要なメモリ量の制限が1つ低いことが分かる。
ストラー数を,文の処理に必要な記憶領域の数が解析に3~4であることを示す報告(abney and johnson, 1991; schuler et al., 2010)と,心理学的「魔法数」が3~5であることを示す報告書(cowan, 2001)とを説明する推論として考察する。
分析的および経験的分析により、ストラー数は一定ではないが対数的に増加することが示され、したがってストラー数は文の長さの範囲から導かれる。
さらに、ストラー数はランダム木に対して異なるものではなく、その起源は自然言語に特有ではないことを示唆している。
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。
代わりにモデルの語彙を変更する(例えば、範囲10~100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文 参考訳(メタデータ) (2023-10-09T23:07:05Z) - Testing the Predictions of Surprisal Theory in 11 Languages [77.45204595614]
本研究では,11言語における副次的時間と読解時間の関係について検討する。
より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。
論文 参考訳(メタデータ) (2023-07-07T15:37:50Z) - Crawling the Internal Knowledge-Base of Language Models [53.95793060766248]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。
我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-01-30T12:03:36Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Deep Lexical Hypothesis: Identifying personality structure in natural
language [0.30458514384586394]
言語モデルから形容詞類似性を抽出する手法を提案する。
この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。
特に、神経症と開放性は弱く、矛盾なく回復するだけである。
論文 参考訳(メタデータ) (2022-03-04T02:06:10Z) - Linear-time calculation of the expected sum of edge lengths in random
projective linearizations of trees [1.2944868613449219]
構文的に関連付けられた単語間の距離の合計は、過去数十年間、ライムライトの中にあった。
言語に関する関連する定量的研究を行うために、様々なランダムベースラインが定義されている。
ここでは、文の単語のランダムな射影置換という、一般的なベースラインに焦点を当てる。
論文 参考訳(メタデータ) (2021-07-07T15:11:53Z) - Probing for Multilingual Numerical Understanding in Transformer-Based
Language Models [0.0]
本研究では,様々な自然言語数系における数値データに対する構成的推論の証拠を探索するために,DistilBERT,XLM,BERTでテストされた新しい探索タスクを提案する。
英語,日本語,デンマーク語,フランス語の文法的判断と価値比較分類の両方を用いて,これらの事前学習されたモデルの埋め込みに符号化された情報が文法的判断には十分であるが,一般には価値比較には不十分であることを示す。
論文 参考訳(メタデータ) (2020-10-13T19:56:02Z) - A New Data Normalization Method to Improve Dialogue Generation by
Minimizing Long Tail Effect [4.939434448798507]
ウィキペディアから大規模コーパスを分析し,3つの周波数ベースデータ正規化手法を提案する。
実験の結果, 生成した応答の多様性と情報性に有意な改善が認められた。
論文 参考訳(メタデータ) (2020-05-04T05:20:19Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。