Fugu-MT 論文翻訳(概要): Strahler Number of Natural Language Sentences in Comparison with Random Trees

論文の概要: Strahler Number of Natural Language Sentences in Comparison with Random Trees

arxiv url: http://arxiv.org/abs/2307.02697v3
Date: Thu, 9 Nov 2023 02:54:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 17:57:18.905170
Title: Strahler Number of Natural Language Sentences in Comparison with Random Trees
Title（参考訳）: ランダム木との比較による自然言語文のストラー数
Authors: Kumiko Tanaka-Ishii and Akira Tanaka
Abstract要約: ストラー数は当初、河川分岐の複雑さを特徴づけるために提案された。本稿では,自然言語文木構造に対するStrahler数の上限と下限の計算を提案する。
参考スコア（独自算出の注目度）: 7.397067779113841
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Strahler number was originally proposed to characterize the complexity of river bifurcation and has found various applications. This article proposes computation of the Strahler number's upper and lower limits for natural language sentence tree structures. Through empirical measurements across grammatically annotated data, the Strahler number of natural language sentences is shown to be almost 3 or 4, similarly to the case of river bifurcation as reported by Strahler (1957). From the theory behind the number, we show that it is one kind of lower limit on the amount of memory required to process sentences. We consider the Strahler number to provide reasoning that explains reports showing that the number of required memory areas to process sentences is 3 to 4 for parsing (Schuler et al., 2010), and reports indicating a psychological "magical number" of 3 to 5 (Cowan, 2001). An analytical and empirical analysis shows that the Strahler number is not constant but grows logarithmically; therefore, the Strahler number of sentences derives from the range of sentence lengths. Furthermore, the Strahler number is not different for random trees, which could suggest that its origin is not specific to natural language.
Abstract（参考訳）: ストラー数は当初、河川分岐の複雑さを特徴付けるために提案され、様々な応用を見出した。本稿では,自然言語文木構造に対するシュトララー数の上限と下限の計算を提案する。文法的にアノテートされたデータによる経験的な測定により、ストラフラーの自然言語文の数は、ストラフラー (1957) が報告したように川の分岐の例と同様に、ほぼ3または4であると示される。この数値の背後にある理論から、文を処理するのに必要なメモリ量の制限が1つ低いことが分かる。我々は,Strahler数について,文処理に必要なメモリ領域の数が3から4であることを示すレポート(Schuler et al., 2010)と,心理的な「マジックナンバー」が3から5であることを示すレポート(Cowan, 2001)の推論を提供すると考えている。分析的および経験的分析により、ストラー数は一定ではないが対数的に増加することが示され、したがってストラー数は文の長さの範囲から導かれる。さらに、ストラー数はランダム木に対して異なるものではなく、その起源は自然言語に特有ではないことを示唆している。

関連論文リスト

Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models [19.47343987998194]
大規模言語モデル(LLM)は、自然言語処理タスクにおける印象的な機能を示している。基本算術、数値、等級数比較などの数値推論タスクにおけるそれらの性能は、驚くほど貧弱なままである。既存のベンチマークは主に言語能力や構造化された数学的問題解決に焦点を当てている。
論文参考訳（メタデータ） (2025-02-16T10:48:28Z)
Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文参考訳（メタデータ） (2024-02-18T11:46:16Z)
Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。代わりにモデルの語彙を変更する(例えば、範囲10～100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文参考訳（メタデータ） (2023-10-09T23:07:05Z)
Testing the Predictions of Surprisal Theory in 11 Languages [77.45204595614]
本研究では,11言語における副次的時間と読解時間の関係について検討する。より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。
論文参考訳（メタデータ） (2023-07-07T15:37:50Z)
Crawling the Internal Knowledge-Base of Language Models [53.95793060766248]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-01-30T12:03:36Z)
Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文参考訳（メタデータ） (2022-05-14T11:47:58Z)
Deep Lexical Hypothesis: Identifying personality structure in natural language [0.30458514384586394]
言語モデルから形容詞類似性を抽出する手法を提案する。この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。特に、神経症と開放性は弱く、矛盾なく回復するだけである。
論文参考訳（メタデータ） (2022-03-04T02:06:10Z)
Linear-time calculation of the expected sum of edge lengths in random projective linearizations of trees [1.2944868613449219]
構文的に関連付けられた単語間の距離の合計は、過去数十年間、ライムライトの中にあった。言語に関する関連する定量的研究を行うために、様々なランダムベースラインが定義されている。ここでは、文の単語のランダムな射影置換という、一般的なベースラインに焦点を当てる。
論文参考訳（メタデータ） (2021-07-07T15:11:53Z)
Probing for Multilingual Numerical Understanding in Transformer-Based Language Models [0.0]
本研究では,様々な自然言語数系における数値データに対する構成的推論の証拠を探索するために,DistilBERT,XLM,BERTでテストされた新しい探索タスクを提案する。英語,日本語,デンマーク語,フランス語の文法的判断と価値比較分類の両方を用いて,これらの事前学習されたモデルの埋め込みに符号化された情報が文法的判断には十分であるが,一般には価値比較には不十分であることを示す。
論文参考訳（メタデータ） (2020-10-13T19:56:02Z)
A New Data Normalization Method to Improve Dialogue Generation by Minimizing Long Tail Effect [4.939434448798507]
ウィキペディアから大規模コーパスを分析し,3つの周波数ベースデータ正規化手法を提案する。実験の結果, 生成した応答の多様性と情報性に有意な改善が認められた。
論文参考訳（メタデータ） (2020-05-04T05:20:19Z)
Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文参考訳（メタデータ） (2020-04-07T01:06:36Z)
Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文参考訳（メタデータ） (2020-01-30T16:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。