論文の概要: Geometric Patterns of Meaning: A PHATE Manifold Analysis of Multi-lingual Embeddings
- arxiv url: http://arxiv.org/abs/2601.09731v1
- Date: Mon, 29 Dec 2025 14:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.713098
- Title: Geometric Patterns of Meaning: A PHATE Manifold Analysis of Multi-lingual Embeddings
- Title(参考訳): 意味の幾何学的パターン:多言語埋め込みのPHATEマニフォールド解析
- Authors: Wen G Gong,
- Abstract要約: セマンスコープにより実装された多言語埋め込みにおける意味的幾何学を解析するための多段階解析フレームワークを提案する。
サブ文字コンポーネント、アルファベットシステム、セマンティックドメイン、数値概念にまたがる多様なデータセットの分析は、体系的な幾何学的パターンと現在の埋め込みモデルにおける限界を明らかにする。
これらの結果から,PHATE多様体学習は,埋め込み空間における意味の幾何学的構造を研究するだけでなく,意味的関係を捉える上での埋め込みモデルの有効性を検証するための重要な解析ツールとして確立されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a multi-level analysis framework for examining semantic geometry in multilingual embeddings, implemented through Semanscope (a visualization tool that applies PHATE manifold learning across four linguistic levels). Analysis of diverse datasets spanning sub-character components, alphabetic systems, semantic domains, and numerical concepts reveals systematic geometric patterns and critical limitations in current embedding models. At the sub-character level, purely structural elements (Chinese radicals) exhibit geometric collapse, highlighting model failures to distinguish semantic from structural components. At the character level, different writing systems show distinct geometric signatures. At the word level, content words form clustering-branching patterns across 20 semantic domains in English, Chinese, and German. Arabic numbers organize through spiral trajectories rather than clustering, violating standard distributional semantics assumptions. These findings establish PHATE manifold learning as an essential analytic tool not only for studying geometric structure of meaning in embedding space, but also for validating the effectiveness of embedding models in capturing semantic relationships.
- Abstract(参考訳): セマンスコープ(PHATE多様体学習を4つの言語レベルにわたって適用した可視化ツール)を用いて実装した多言語埋め込みにおける意味幾何学の探索のための多段階解析フレームワークを提案する。
サブ文字コンポーネント、アルファベットシステム、セマンティックドメイン、数値概念にまたがる多様なデータセットの分析は、体系的な幾何学的パターンと現在の埋め込みモデルにおける限界を明らかにする。
サブキャラクタレベルでは、純粋に構造的要素(中国ラジカル)は幾何学的崩壊を示し、構造的要素と意味を区別するためのモデル失敗を強調している。
文字レベルでは、異なる文字体系は異なる幾何学的シグネチャを示す。
単語レベルでは、内容語は英語、中国語、ドイツ語の20のセマンティックドメインにまたがってクラスタリング・ブランチパターンを形成する。
アラビア数字は、クラスタリングではなくスパイラルな軌跡を通して構成され、標準的な分布意味論の仮定に違反する。
これらの結果から, PHATE多様体学習は, 埋め込み空間における意味の幾何学的構造を研究するだけでなく, 意味的関係を捉える上での埋め込みモデルの有効性を検証するための重要な解析ツールとして確立した。
関連論文リスト
- From Topology to Retrieval: Decoding Embedding Spaces with Unified Signatures [38.75080027435365]
本稿では,テキスト埋め込みモデルとデータセットの幅広い集合にわたる位相的および幾何学的測度を包括的に分析する。
埋め込み空間を特徴付けるための総合的なフレームワークである統一トポロジカルシグナチャ (UTS) を導入する。
論文 参考訳(メタデータ) (2025-11-27T06:37:45Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Steering Embedding Models with Geometric Rotation: Mapping Semantic Relationships Across Languages and Models [2.3204178451683264]
埋め込み空間における一貫した回転操作として意味変換を表現する幾何学的アプローチであるRotor-Invariant Shift Estimation (RISE)を導入する。
RISE操作は高い性能で言語とモデルの両方をまたいで動作することができる。
この研究は、談話レベルの意味変換が多言語埋め込み空間における一貫した幾何学的操作に対応するという最初の体系的な実証を提供する。
論文 参考訳(メタデータ) (2025-10-10T18:51:32Z) - Geometric Structures and Patterns of Meaning: A PHATE Manifold Analysis of Chinese Character Embeddings [0.0]
PHATE多様体解析を用いた漢字埋め込みにおける幾何学的パターンについて検討する。
コンテンツワードのクラスタリングパターンと関数ワードの分岐パターンを観察する。
論文 参考訳(メタデータ) (2025-09-23T14:28:34Z) - Geometry of Semantics in Next-Token Prediction: How Optimization Implicitly Organizes Linguistic Representations [34.88156871518115]
Next-token Prediction (NTP) 最適化により、言語モデルがテキストから意味構造を抽出し、整理する。
我々は、より大きな特異値に対応する概念が訓練中に学習され、自然な意味階層が生成されることを示した。
この洞察は、解釈可能なセマンティックカテゴリを識別するための概念記号を組み合わせる方法である、オーサントベースのクラスタリングを動機付けている。
論文 参考訳(メタデータ) (2025-05-13T08:46:04Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - Geometric Signatures of Compositionality Across a Language Model's Lifetime [47.25475802128033]
現代言語モデルは、構成性によって実現された言語の本質的な単純さを反映しているかどうかを考察する。
構成性と幾何学的複雑性の関係は,学習した言語的特徴から生じる。
本分析では, 言語構成の意味的側面と表面的側面をそれぞれ符号化し, 非線形次元と線形次元の顕著な対比を示した。
論文 参考訳(メタデータ) (2024-10-02T11:54:06Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。