論文の概要: Statistical Mechanics of Strahler Number via Random and Natural Language
Sentences
- arxiv url: http://arxiv.org/abs/2307.02697v1
- Date: Thu, 6 Jul 2023 00:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:45:09.769444
- Title: Statistical Mechanics of Strahler Number via Random and Natural Language
Sentences
- Title(参考訳): ランダムおよび自然言語文によるストラー数の統計力学
- Authors: Kumiko Tanaka-Ishii and Akira Tanaka
- Abstract要約: ストラー数は当初、河川分岐の複雑さを特徴づけるために提案された。
本稿では,自然言語文木構造に対するStrahler数の上限と下限の計算を提案する。
- 参考スコア(独自算出の注目度): 10.013236603932778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Strahler number was originally proposed to characterize the complexity of
river bifurcation and has found various applications. This article proposes
computation of the Strahler number's upper and lower limits for natural
language sentence tree structures, which are available in a large dataset
allowing for statistical mechanics analysis.
Through empirical measurements across grammatically annotated data, the
Strahler number of natural language sentences is shown to be almost always 3 or
4, similar to the case of river bifurcation as reported by Strahler (1957) and
Horton (1945).
From the theory behind the number, we show that it is the lower limit of the
amount of memory required to process sentences under a particular model. A
mathematical analysis of random trees provides a further conjecture on the
nature of the Strahler number, revealing that it is not a constant but grows
logarithmically. This finding uncovers the statistical basics behind the
Strahler number as a characteristic of a general tree structure target.
- Abstract(参考訳): ストラー数は当初、河川分岐の複雑さを特徴付けるために提案され、様々な応用を見出した。
本稿では,統計的力学解析が可能な大規模データセットで利用可能な自然言語文木構造に対するシュトララー数の上・下限の計算を提案する。
文法的に注釈付けされたデータにわたる経験的な測定により、Strahler の自然言語文の数は、Strahler (1957) と Horton (1945) が報告したように、ほぼ常に 3 または 4 であることが示された。
数字の背景にある理論から、特定のモデルの下で文を処理するのに必要なメモリ量の上限が低いことを示す。
乱数木の数学的解析は、シュトララー数の性質に関するさらなる予想を与え、それが定数ではなく対数的に成長することを示す。
この発見は、一般的な木構造ターゲットの特徴として、ストラー数の背後にある統計的基礎を明らかにする。
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。
代わりにモデルの語彙を変更する(例えば、範囲10~100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文 参考訳(メタデータ) (2023-10-09T23:07:05Z) - Testing the Predictions of Surprisal Theory in 11 Languages [77.45204595614]
本研究では,11言語における副次的時間と読解時間の関係について検討する。
より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。
論文 参考訳(メタデータ) (2023-07-07T15:37:50Z) - Crawling the Internal Knowledge-Base of Language Models [53.95793060766248]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。
我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-01-30T12:03:36Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Deep Lexical Hypothesis: Identifying personality structure in natural
language [0.30458514384586394]
言語モデルから形容詞類似性を抽出する手法を提案する。
この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。
特に、神経症と開放性は弱く、矛盾なく回復するだけである。
論文 参考訳(メタデータ) (2022-03-04T02:06:10Z) - Linear-time calculation of the expected sum of edge lengths in random
projective linearizations of trees [1.2944868613449219]
構文的に関連付けられた単語間の距離の合計は、過去数十年間、ライムライトの中にあった。
言語に関する関連する定量的研究を行うために、様々なランダムベースラインが定義されている。
ここでは、文の単語のランダムな射影置換という、一般的なベースラインに焦点を当てる。
論文 参考訳(メタデータ) (2021-07-07T15:11:53Z) - Probing for Multilingual Numerical Understanding in Transformer-Based
Language Models [0.0]
本研究では,様々な自然言語数系における数値データに対する構成的推論の証拠を探索するために,DistilBERT,XLM,BERTでテストされた新しい探索タスクを提案する。
英語,日本語,デンマーク語,フランス語の文法的判断と価値比較分類の両方を用いて,これらの事前学習されたモデルの埋め込みに符号化された情報が文法的判断には十分であるが,一般には価値比較には不十分であることを示す。
論文 参考訳(メタデータ) (2020-10-13T19:56:02Z) - A New Data Normalization Method to Improve Dialogue Generation by
Minimizing Long Tail Effect [4.939434448798507]
ウィキペディアから大規模コーパスを分析し,3つの周波数ベースデータ正規化手法を提案する。
実験の結果, 生成した応答の多様性と情報性に有意な改善が認められた。
論文 参考訳(メタデータ) (2020-05-04T05:20:19Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。