論文の概要: Universal versus system-specific features of punctuation usage patterns
in~major Western~languages
- arxiv url: http://arxiv.org/abs/2212.11182v1
- Date: Wed, 21 Dec 2022 16:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:23:10.347039
- Title: Universal versus system-specific features of punctuation usage patterns
in~major Western~languages
- Title(参考訳): 西欧諸語における句読点パターンの普遍的特徴と体系的特徴
- Authors: Tomasz Stanisz, Stanislaw Drozdz, Jaroslaw Kwapien
- Abstract要約: 文章では句読点はその表現の1つと見なすことができる。
本研究は,七大西欧語における世界名文・代表文の大規模なコーパスに基づく。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The celebrated proverb that "speech is silver, silence is golden" has a long
multinational history and multiple specific meanings. In written texts
punctuation can in fact be considered one of its manifestations. Indeed, the
virtue of effectively speaking and writing involves - often decisively - the
capacity to apply the properly placed breaks. In the present study, based on a
large corpus of world-famous and representative literary texts in seven major
Western languages, it is shown that the distribution of intervals between
consecutive punctuation marks in almost all texts can universally be
characterised by only two parameters of the discrete Weibull distribution which
can be given an intuitive interpretation in terms of the so-called hazard
function. The values of these two parameters tend to be language-specific,
however, and even appear to navigate translations. The properties of the
computed hazard functions indicate that among the studied languages, English
turns out to be the least constrained by the necessity to place a consecutive
punctuation mark to partition a sequence of words. This may suggest that when
compared to other studied languages, English is more flexible, in the sense of
allowing longer uninterrupted sequences of words. Spanish reveals similar
tendency to only a bit lesser extent.
- Abstract(参考訳): 詩は銀であり、沈黙は黄金である」という有名な証明には、長い多国籍の歴史と複数の特定の意味がある。
文中では句読は実際にはその表現の1つと見なすことができる。
実際、効果的に話すことと書くことの長所は、しばしば決定的に、適切に配置された休憩を適用する能力である。
本研究は,7つの主要な西洋言語における世界的および代表的な文学文献のコーパスに基づいて,ほぼすべてのテキストにおける連続句読点間の間隔分布を,いわゆるハザード関数を用いて直感的に解釈できる離散weibull分布の2つのパラメータのみによって普遍的に特徴付けることができることを示した。
しかし、これらの2つのパラメータの値は言語固有の傾向があり、翻訳をナビゲートするように見える。
計算されたハザード関数の性質は、研究された言語のうち、英語が単語列を分割するために連続した句読点を置く必要性によって最小に制約されていることを示している。
これは、他の研究された言語と比較すると、英語はより柔軟であり、単語の長い連続を許容するという意味であることを示唆している。
スペインも同様の傾向を少ししか示さない。
関連論文リスト
- Statistics of punctuation in experimental literature -- the remarkable case of "Finnegans Wake" by James Joyce [0.0]
本研究は, 句読点パターンの分析を世界文学のより実験的な部分にまで拡張する。
個別のワイブル分布と句読点間の距離のコンプライアンスは、典型的にはここでも適用される。
ジェームズ・ジョイス(James Joyce)による作品のいくつかはこの点において、関連する分布の尾部がかなり厚くなっているという意味で、異なるものである。
論文 参考訳(メタデータ) (2024-08-31T15:30:51Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - Universality and diversity in word patterns [0.0]
本稿では,11言語を対象とした語彙統計関係の分析を行う。
言語が単語関係を表現するために利用する多種多様な方法が、ユニークなパターン分布を生み出していることがわかった。
論文 参考訳(メタデータ) (2022-08-23T20:03:27Z) - When is BERT Multilingual? Isolating Crucial Ingredients for
Cross-lingual Transfer [15.578267998149743]
サブワード重複の欠如は,言語が単語順に異なる場合,ゼロショット転送に大きく影響することを示す。
言語間の伝達性能と単語埋め込みアライメントの間には強い相関関係がある。
その結果、言語間の単語埋め込みアライメントを明示的に改善する多言語モデルに焦点が当てられた。
論文 参考訳(メタデータ) (2021-10-27T21:25:39Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Heaps' law and Heaps functions in tagged texts: Evidences of their
linguistic relevance [0.0]
英文学作品75ドルのコーパスにおいて,語彙サイズと文長の関係について検討した。
我々は、各テキストに沿って、各タグの新しい単語の進行的な出現を分析する。
論文 参考訳(メタデータ) (2020-01-07T17:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。