論文の概要: From Topology to Retrieval: Decoding Embedding Spaces with Unified Signatures
- arxiv url: http://arxiv.org/abs/2511.22150v1
- Date: Thu, 27 Nov 2025 06:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.427153
- Title: From Topology to Retrieval: Decoding Embedding Spaces with Unified Signatures
- Title(参考訳): トポロジから検索へ:統一署名による埋め込み空間のデコード
- Authors: Florian Rottach, William Rudman, Bastain Rieck, Harrisen Scells, Carsten Eickhoff,
- Abstract要約: 本稿では,テキスト埋め込みモデルとデータセットの幅広い集合にわたる位相的および幾何学的測度を包括的に分析する。
埋め込み空間を特徴付けるための総合的なフレームワークである統一トポロジカルシグナチャ (UTS) を導入する。
- 参考スコア(独自算出の注目度): 26.176209859766917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Studying how embeddings are organized in space not only enhances model interpretability but also uncovers factors that drive downstream task performance. In this paper, we present a comprehensive analysis of topological and geometric measures across a wide set of text embedding models and datasets. We find a high degree of redundancy among these measures and observe that individual metrics often fail to sufficiently differentiate embedding spaces. Building on these insights, we introduce Unified Topological Signatures (UTS), a holistic framework for characterizing embedding spaces. We show that UTS can predict model-specific properties and reveal similarities driven by model architecture. Further, we demonstrate the utility of our method by linking topological structure to ranking effectiveness and accurately predicting document retrievability. We find that a holistic, multi-attribute perspective is essential to understanding and leveraging the geometry of text embeddings.
- Abstract(参考訳): 埋め込みが空間内でどのように構成されるかを研究することは、モデルの解釈可能性を高めるだけでなく、下流のタスクパフォーマンスを駆動する要因を明らかにする。
本稿では,多種多様なテキスト埋め込みモデルとデータセットを対象としたトポロジカル測度と幾何的測度を包括的に分析する。
これらの測度には高い冗長性があり、個々の測度が埋め込み空間を十分に区別できないことが多いことを観察する。
これらの知見に基づいて、埋め込み空間を特徴付けるための総合的なフレームワークである統一トポロジカルシグナチャ(UTS)を導入する。
UTSはモデル固有の特性を予測し、モデルアーキテクチャによって駆動される類似性を明らかにする。
さらに、トポロジカルな構造とランキングの有効性をリンクし、文書検索可能性を正確に予測することで、提案手法の有用性を実証する。
テキスト埋め込みの幾何学の理解と活用には,包括的で多属性な視点が不可欠である。
関連論文リスト
- GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Explainable Mapper: Charting LLM Embedding Spaces Using Perturbation-Based Explanation and Verification Agents [11.168089496463125]
大規模言語モデル(LLM)は、単語、文、概念間のリッチな意味的および構文的関係をキャプチャする高次元埋め込みを生成する。
これらの埋め込み特性の半自動アノテーションのためのフレームワークを導入する。
論文 参考訳(メタデータ) (2025-07-24T17:43:40Z) - Analytical Discovery of Manifold with Machine Learning [2.6585498155499643]
GAMLA (Global Analytical Manifold Learning using Auto-Encoding) を導入する。
GAMLAは、基礎となる多様体のキャラクタリ表現と補表現の両方を導出するために、自動符号化フレームワーク内で2ラウンドのトレーニングプロセスを採用している。
2つの表現を合わせて潜在空間全体を分解し、したがって多様体を取り巻く局所空間構造を特徴づけることができる。
論文 参考訳(メタデータ) (2025-04-03T11:53:00Z) - Persistent Topological Features in Large Language Models [0.6597195879147556]
トポロジカルな特徴である$p$次元の穴が層全体に持続し、進化していくかを測定するトポロジカル記述子を導入する。
このことは、プロンプトがどのように再配置され、それらの相対的な位置が表現空間で変化するかという統計的視点を与える。
ショーケースアプリケーションとして、レイヤプルーニングの基準を確立するためにzigzag Persistenceを使用し、最先端の手法に匹敵する結果を得る。
論文 参考訳(メタデータ) (2024-10-14T19:46:23Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z) - HUMAP: Hierarchical Uniform Manifold Approximation and Projection [40.77787659104315]
HUMAPは、局所的・大域的構造の保存に柔軟であるように設計された、新しい階層的次元削減技術である。
提案手法の優位性を示す実証的証拠を現在の階層的アプローチと比較し,データセットラベリングにHUMAPを適用したケーススタディを示す。
論文 参考訳(メタデータ) (2021-06-14T19:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。