論文の概要: Geometric Structures and Patterns of Meaning: A PHATE Manifold Analysis of Chinese Character Embeddings
- arxiv url: http://arxiv.org/abs/2510.01230v1
- Date: Tue, 23 Sep 2025 14:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.731045
- Title: Geometric Structures and Patterns of Meaning: A PHATE Manifold Analysis of Chinese Character Embeddings
- Title(参考訳): 意味の幾何学的構造とパターン:漢字埋め込みのPHATEマニフォールド解析
- Authors: Wen G. Gong,
- Abstract要約: PHATE多様体解析を用いた漢字埋め込みにおける幾何学的パターンについて検討する。
コンテンツワードのクラスタリングパターンと関数ワードの分岐パターンを観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We systematically investigate geometric patterns in Chinese character embeddings using PHATE manifold analysis. Through cross-validation across seven embedding models and eight dimensionality reduction methods, we observe clustering patterns for content words and branching patterns for function words. Analysis of over 1000 Chinese characters across 12 semantic domains reveals that geometric complexity correlates with semantic content: meaningful characters exhibit rich geometric diversity while structural radicals collapse into tight clusters. The comprehensive child-network analysis (123 phrases) demonstrates systematic semantic expansion from elemental character. These findings provide computational evidence supporting traditional linguistic theory and establish a novel framework for geometric analysis of semantic organization.
- Abstract(参考訳): PHATE多様体解析を用いて漢字埋め込みにおける幾何学的パターンを体系的に検討する。
7つの埋め込みモデルと8つの次元削減手法をクロスバリデーションすることで、コンテンツワードのクラスタリングパターンと関数ワードの分岐パターンを観察する。
12のセマンティックドメインにまたがる1000以上の漢字の分析によると、幾何学的複雑さは意味的内容と相関している。
包括的児童ネットワーク分析(123句)は、要素的特徴から体系的な意味的拡張を示す。
これらの知見は、従来の言語理論を支持する計算的証拠を提供し、意味的組織を幾何学的に分析するための新しい枠組みを確立する。
関連論文リスト
- Geometric Patterns of Meaning: A PHATE Manifold Analysis of Multi-lingual Embeddings [0.0]
セマンスコープにより実装された多言語埋め込みにおける意味的幾何学を解析するための多段階解析フレームワークを提案する。
サブ文字コンポーネント、アルファベットシステム、セマンティックドメイン、数値概念にまたがる多様なデータセットの分析は、体系的な幾何学的パターンと現在の埋め込みモデルにおける限界を明らかにする。
これらの結果から,PHATE多様体学習は,埋め込み空間における意味の幾何学的構造を研究するだけでなく,意味的関係を捉える上での埋め込みモデルの有効性を検証するための重要な解析ツールとして確立されている。
論文 参考訳(メタデータ) (2025-12-29T14:00:12Z) - From Topology to Retrieval: Decoding Embedding Spaces with Unified Signatures [38.75080027435365]
本稿では,テキスト埋め込みモデルとデータセットの幅広い集合にわたる位相的および幾何学的測度を包括的に分析する。
埋め込み空間を特徴付けるための総合的なフレームワークである統一トポロジカルシグナチャ (UTS) を導入する。
論文 参考訳(メタデータ) (2025-11-27T06:37:45Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Geometry of Semantics in Next-Token Prediction: How Optimization Implicitly Organizes Linguistic Representations [34.88156871518115]
Next-token Prediction (NTP) 最適化により、言語モデルがテキストから意味構造を抽出し、整理する。
我々は、より大きな特異値に対応する概念が訓練中に学習され、自然な意味階層が生成されることを示した。
この洞察は、解釈可能なセマンティックカテゴリを識別するための概念記号を組み合わせる方法である、オーサントベースのクラスタリングを動機付けている。
論文 参考訳(メタデータ) (2025-05-13T08:46:04Z) - Geometric Signatures of Compositionality Across a Language Model's Lifetime [47.25475802128033]
現代言語モデルは、構成性によって実現された言語の本質的な単純さを反映しているかどうかを考察する。
構成性と幾何学的複雑性の関係は,学習した言語的特徴から生じる。
本分析では, 言語構成の意味的側面と表面的側面をそれぞれ符号化し, 非線形次元と線形次元の顕著な対比を示した。
論文 参考訳(メタデータ) (2024-10-02T11:54:06Z) - A Joint Matrix Factorization Analysis of Multilingual Representations [28.751144371901958]
多言語モデルと単言語モデルの潜在表現を比較するために,結合行列の分解に基づく解析ツールを提案する。
我々は,多言語事前学習モデルを用いて学習した表現において,形態素的特徴がどのように反映されるかについて検討した。
論文 参考訳(メタデータ) (2023-10-24T04:43:45Z) - Discovering Universal Geometry in Embeddings with ICA [3.1921092049934647]
それぞれの埋め込みは、いくつかの内在的解釈可能な軸の合成として表現できることを示す。
埋め込みの幾何学的パターンにおける普遍的意味構造の発見は、埋め込みにおける表現の理解を深める。
論文 参考訳(メタデータ) (2023-05-22T16:04:44Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - A singular Riemannian geometry approach to Deep Neural Networks I.
Theoretical foundations [77.86290991564829]
ディープニューラルネットワークは、音声認識、機械翻訳、画像解析など、いくつかの科学領域で複雑な問題を解決するために広く使われている。
我々は、リーマン計量を備えた列の最後の多様体で、多様体間の写像の特定の列を研究する。
このようなシーケンスのマップの理論的性質について検討し、最終的に実践的な関心を持つニューラルネットワークの実装間のマップのケースに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-17T11:43:30Z) - A Frobenius Algebraic Analysis for Parasitic Gaps [4.254099382808598]
セマンティックな内容の重複をレキシコンに限定できる2種類の寄生ギャップを同定する。
同じ述語論に影響を及ぼす寄生的ギャップに対して、多型は一次ギャップを導入する語彙的項目と関連付けられる。
合成変換は、有限次元ベクトル空間の解釈コンパクト閉圏に構文型と導出を関連付ける。
論文 参考訳(メタデータ) (2020-05-12T09:36:15Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。