論文の概要: Complex systems approach to natural language
- arxiv url: http://arxiv.org/abs/2401.02772v1
- Date: Fri, 5 Jan 2024 12:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:03:27.794996
- Title: Complex systems approach to natural language
- Title(参考訳): 自然言語への複雑システムアプローチ
- Authors: Tomasz Stanisz, Stanis{\l}aw Dro\.zd\.z, Jaros{\l}aw Kwapie\'n
- Abstract要約: 複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The review summarizes the main methodological concepts used in studying
natural language from the perspective of complexity science and documents their
applicability in identifying both universal and system-specific features of
language in its written representation. Three main complexity-related research
trends in quantitative linguistics are covered. The first part addresses the
issue of word frequencies in texts and demonstrates that taking punctuation
into consideration restores scaling whose violation in the Zipf's law is often
observed for the most frequent words. The second part introduces methods
inspired by time series analysis, used in studying various kinds of
correlations in written texts. The related time series are generated on the
basis of text partition into sentences or into phrases between consecutive
punctuation marks. It turns out that these series develop features often found
in signals generated by complex systems, like long-range correlations or
(multi)fractal structures. Moreover, it appears that the distances between
punctuation marks comply with the discrete variant of the Weibull distribution.
In the third part, the application of the network formalism to natural language
is reviewed, particularly in the context of the so-called word-adjacency
networks. Parameters characterizing topology of such networks can be used for
classification of texts, for example, from a stylometric perspective. Network
approach can also be applied to represent the organization of word
associations. Structure of word-association networks turns out to be
significantly different from that observed in random networks, revealing
genuine properties of language. Finally, punctuation seems to have a
significant impact not only on the language's information-carrying ability but
also on its key statistical properties, hence it is recommended to consider
punctuation marks on a par with words.
- Abstract(参考訳): 本総説では,複雑性科学の観点からの自然言語研究における主要な方法論的概念を要約し,自然言語の普遍的特徴と体系的特徴の両方をその表現で識別する適用性について述べる。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
第1部はテキスト中の単語頻度の問題に対処し、句読点を考慮に入れれば、Zipfの法則違反が頻繁に見られるスケールが回復することを示した。
第2部では, 時系列解析にインスパイアされた手法を導入し, テキストの相互関係について検討する。
関連時系列は、テキストを文に分割したり、連続した句読点間のフレーズに分割して生成される。
これらの系列は、長距離相関や(多重)フラクタル構造のような複雑な系によって生成される信号にしばしば現れる特徴を発達させることが判明した。
また,句読点間の距離はワイブル分布の離散的変種に適合していると考えられる。
第3部では、自然言語へのネットワーク形式化の適用について、特にいわゆるワード・アジャクシー・ネットワークの文脈で検討する。
このようなネットワークのトポロジーを特徴付けるパラメータは、例えば、スタイロメトリの観点から、テキストの分類に使用できる。
ネットワークアプローチは、ワードアソシエーションの組織を表現するためにも適用できる。
単語連想ネットワークの構造は、ランダムネットワークで観測されたものとは大きく異なり、言語の真の特性が明らかにされる。
最後に、句読点は言語の情報伝達能力だけでなく、その重要な統計特性にも大きな影響を与えているようで、句読点を単語と同等に考えることが推奨されている。
関連論文リスト
- Acoustic characterization of speech rhythm: going beyond metrics with
recurrent neural networks [0.0]
我々は,21言語における音声記録の大規模データベース上で,言語識別タスク上で繰り返しニューラルネットワークを訓練する。
ネットワークは、40%のケースで10秒の録音の言語を識別することができ、その3分の2はトップ3の推測だった。
論文 参考訳(メタデータ) (2024-01-22T09:49:44Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Universal versus system-specific features of punctuation usage patterns
in~major Western~languages [0.0]
文章では句読点はその表現の1つと見なすことができる。
本研究は,七大西欧語における世界名文・代表文の大規模なコーパスに基づく。
論文 参考訳(メタデータ) (2022-12-21T16:52:10Z) - Universality and diversity in word patterns [0.0]
本稿では,11言語を対象とした語彙統計関係の分析を行う。
言語が単語関係を表現するために利用する多種多様な方法が、ユニークなパターン分布を生み出していることがわかった。
論文 参考訳(メタデータ) (2022-08-23T20:03:27Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence
Semantic Matching [66.65398852962177]
文意味マッチングのための新しい動的再読ネットワーク(DRr-Net)を開発した。
DRr-Netをローカルに認識する動的再読み取り注意ネット(LadRa-Net)に拡張する
2つの一般的な文意味マッチングタスクの実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-08-06T02:07:04Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - Testing the Quantitative Spacetime Hypothesis using Artificial Narrative
Comprehension (II) : Establishing the Geometry of Invariant Concepts, Themes,
and Namespaces [0.0]
本研究は、セマンティック時空仮説の継続的な適用に寄与し、物語テキストの教師なし分析を実証する。
データストリームは、バイオインフォマティクス解析の方法で、マルチスケール干渉計によって、小さな成分に解析され、分別される。
入力のフラグメントは、各スケールで新しい有効言語を定義するアルファベット階層のシンボルとして機能する。
論文 参考訳(メタデータ) (2020-09-23T11:19:17Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。