論文の概要: Comparison between the Structures of Word Co-occurrence and Word Similarity Networks for Ill-formed and Well-formed Texts in Taiwan Mandarin
- arxiv url: http://arxiv.org/abs/2408.09404v1
- Date: Sun, 18 Aug 2024 08:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:50:15.209122
- Title: Comparison between the Structures of Word Co-occurrence and Word Similarity Networks for Ill-formed and Well-formed Texts in Taiwan Mandarin
- Title(参考訳): 台湾マンダリンにおける単語共起構造と単語類似性ネットワークの比較
- Authors: Po-Hsuan Huang, Hsuan-Lei Shao,
- Abstract要約: 本研究では,台湾のマンダリン不整形インターネットフォーラム投稿に基づく単語共起ネットワークの構造について検討した。
それは、不整形テキストと不整形テキストの3つの性質(スケールフリー、スモールワールド、ディスコンゾネート)が、異なる言語の間で普遍的であるかどうかを見極めようとしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The study of word co-occurrence networks has attracted the attention of researchers due to their potential significance as well as applications. Understanding the structure of word co-occurrence networks is therefore important to fully realize their significance and usages. In past studies, word co-occurrence networks built on well-formed texts have been found to possess certain characteristics, including being small-world, following a two-regime power law distribution, and being generally disassortative. On the flip side, past studies have found that word co-occurrence networks built from ill-formed texts such as microblog posts may behave differently from those built from well-formed documents. While both kinds of word co-occurrence networks are small-world and disassortative, word co-occurrence networks built from ill-formed texts are scale-free and follow the power law distribution instead of the two-regime power law distribution. However, since past studies on the behavior of word co-occurrence networks built from ill-formed texts only investigated English, the universality of such characteristics remains to be seen among different languages. In addition, it is yet to be investigated whether there could be possible similitude/differences between word co-occurrence networks and other potentially comparable networks. This study therefore investigates and compares the structure of word co-occurrence networks and word similarity networks based on Taiwan Mandarin ill-formed internet forum posts and compare them with those built with well-formed judicial judgments, and seeks to find out whether the three aforementioned properties (scale-free, small-world, and disassortative) for ill-formed and well-formed texts are universal among different languages and between word co-occurrence and word similarity networks.
- Abstract(参考訳): 単語共起ネットワークの研究は、その潜在的重要性と応用性から研究者の注目を集めている。
したがって、単語共起ネットワークの構造を理解することは、その重要性と使用法を十分に理解することが重要である。
過去の研究では、よく形成されたテキスト上に構築された単語共起ネットワークは、小世界である、二段階の電力法分布に従う、概して不合理である、といった特定の特徴を持っていることが判明した。
一方、過去の研究では、マイクロブログポストのような不整形テキストから構築された単語共起ネットワークは、十分に整形された文書から構築されたものと異なる振る舞いをする可能性があることが判明している。
双方の単語共起ネットワークは小さく、相反するものであるが、不定形テキストから構築された単語共起ネットワークはスケールフリーであり、二段階の電力法分布ではなく、電力法分布に従う。
しかし、不規則な文から構築された単語共起ネットワークの振る舞いに関する過去の研究は英語のみを調査していたため、そのような特徴の普遍性は言語によって異なるままである。
さらに、単語共起ネットワークと、他の潜在的に同等なネットワークとの間に、同時性/差が生じうるかどうかについても、まだ検討されていない。
そこで本研究では,台湾のマンダリン不規則なインターネットフォーラム投稿に基づく単語共起ネットワークと単語類似性ネットワークの構造を調査・比較し,上記の3つの特性(スケールフリー,小世界,異方性)が異なる言語間および単語共起と単語類似性ネットワークの間で普遍的であるかを調べる。
関連論文リスト
- Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - Topological properties and organizing principles of semantic networks [3.8462776107938317]
本研究では,11言語から7つの意味関係によって定義されたConceptNetのセマンティックネットワークの特性について検討する。
セマンティック・ネットワークには普遍的な基本的特性があり、疎らで、クラスタ化され、多くは非合法な等級分布を示す。
一部のネットワークでは接続は類似性に基づくが、他のネットワークでは接続は相補性に基づくものである。
論文 参考訳(メタデータ) (2023-04-24T11:12:21Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Sentiment and structure in word co-occurrence networks on Twitter [1.181206257787103]
単語共起ネットワークを用いた政治ツイートにおける文脈と幸福度の関係について検討する。
中立語は支配的であり、極性に関係なく、ほとんどの単語は中立語と共起する傾向がある。
ノードやエッジレベルでの幸福スコアと共起の関係は明らかではないが、コミュニティ中心のアプローチはコーパス内の競合感情のテーマを分離することができる。
論文 参考訳(メタデータ) (2021-10-01T18:00:02Z) - Detecting Communities in Heterogeneous Multi-Relational Networks:A
Message Passing based Approach [89.19237792558687]
コミュニティは、ソーシャルネットワーク、生物学的ネットワーク、コンピュータおよび情報ネットワークを含むネットワークの共通の特徴である。
我々は,全同種ネットワークのコミュニティを同時に検出する効率的なメッセージパッシングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:24Z) - Using word embeddings to improve the discriminability of co-occurrence
text networks [0.1611401281366893]
共起ネットワークにおける仮想リンク作成ツールとしての単語埋め込みの利用により,分類システムの品質が向上するかどうかを検討する。
その結果,Glove,Word2Vec,FastTextでは,スタイメトリータスクの識別性が向上していることがわかった。
論文 参考訳(メタデータ) (2020-03-13T13:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。