論文の概要: Explainable Mapper: Charting LLM Embedding Spaces Using Perturbation-Based Explanation and Verification Agents
- arxiv url: http://arxiv.org/abs/2507.18607v1
- Date: Thu, 24 Jul 2025 17:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.227407
- Title: Explainable Mapper: Charting LLM Embedding Spaces Using Perturbation-Based Explanation and Verification Agents
- Title(参考訳): 説明可能なマッパー:摂動に基づく説明・検証エージェントを用いたLLM埋め込み空間のチャート化
- Authors: Xinyuan Yan, Rita Sevastjanova, Sinie van der Ben, Mennatallah El-Assady, Bei Wang,
- Abstract要約: 大規模言語モデル(LLM)は、単語、文、概念間のリッチな意味的および構文的関係をキャプチャする高次元埋め込みを生成する。
これらの埋め込み特性の半自動アノテーションのためのフレームワークを導入する。
- 参考スコア(独自算出の注目度): 11.168089496463125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) produce high-dimensional embeddings that capture rich semantic and syntactic relationships between words, sentences, and concepts. Investigating the topological structures of LLM embedding spaces via mapper graphs enables us to understand their underlying structures. Specifically, a mapper graph summarizes the topological structure of the embedding space, where each node represents a topological neighborhood (containing a cluster of embeddings), and an edge connects two nodes if their corresponding neighborhoods overlap. However, manually exploring these embedding spaces to uncover encoded linguistic properties requires considerable human effort. To address this challenge, we introduce a framework for semi-automatic annotation of these embedding properties. To organize the exploration process, we first define a taxonomy of explorable elements within a mapper graph such as nodes, edges, paths, components, and trajectories. The annotation of these elements is executed through two types of customizable LLM-based agents that employ perturbation techniques for scalable and automated analysis. These agents help to explore and explain the characteristics of mapper elements and verify the robustness of the generated explanations. We instantiate the framework within a visual analytics workspace and demonstrate its effectiveness through case studies. In particular, we replicate findings from prior research on BERT's embedding properties across various layers of its architecture and provide further observations into the linguistic properties of topological neighborhoods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、単語、文、概念間のリッチな意味的および構文的関係をキャプチャする高次元埋め込みを生成する。
LLM埋め込み空間のトポロジ構造をマッパーグラフで調べることで,それらの基盤構造を理解することができる。
具体的には、マッパーグラフは埋め込み空間の位相構造を要約し、各ノードは位相的近傍(埋め込みのクラスタを含む)を表し、エッジは対応する近傍が重なり合う場合に2つのノードを接続する。
しかし、これらの埋め込み空間を手動で探索して符号化された言語特性を明らかにするには、かなりの努力が必要である。
この課題に対処するために、これらの埋め込み特性の半自動アノテーションのためのフレームワークを導入する。
探索過程を整理するために、まず、ノード、エッジ、パス、コンポーネント、軌跡などのマッパーグラフ内の探索可能な要素の分類を定義する。
これらの要素のアノテーションは、スケーラブルで自動化された分析に摂動技術を用いる2種類のカスタマイズ可能なLCMベースのエージェントによって実行される。
これらのエージェントは、マッパー要素の特性を探索し、説明し、生成した説明の堅牢性を検証するのに役立つ。
視覚分析作業空間内でフレームワークをインスタンス化し、ケーススタディを通じてその有効性を実証する。
特に,アーキテクチャの様々な層にまたがるBERTの埋め込み特性に関する先行研究から得られた知見を再現し,トポロジカル地区の言語特性についてさらなる観察を行う。
関連論文リスト
- Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - From Topology to Retrieval: Decoding Embedding Spaces with Unified Signatures [38.75080027435365]
本稿では,テキスト埋め込みモデルとデータセットの幅広い集合にわたる位相的および幾何学的測度を包括的に分析する。
埋め込み空間を特徴付けるための総合的なフレームワークである統一トポロジカルシグナチャ (UTS) を導入する。
論文 参考訳(メタデータ) (2025-11-27T06:37:45Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - GraphGhost: Tracing Structures Behind Large Language Models [48.8586898059844]
ニューロンの活性化とシグナル伝達をグラフとして表現する統合フレームワークであるGraphGhostを紹介する。
このグラフに基づくパースペクティブにより、PageRankのようなグラフアルゴリズムを用いて、大規模言語モデルの特性を特徴付けることができる。
主要なニューロンノードへの編集は推論の崩壊を引き起こし、論理的フローと意味的理解の両方を変化させることを示した。
論文 参考訳(メタデータ) (2025-10-07T20:28:19Z) - Question-Driven Analysis and Synthesis: Building Interpretable Thematic Trees with LLMs for Text Clustering and Controllable Generation [1.3750624267664158]
二分木を対話的に構築するための再帰的テーマ分割(RTP)を導入する。
ツリーの各ノードは、データを意味的に分割する自然言語の質問であり、完全に解釈可能な分類である。
RTPの質問駆動階層はBERTopicのような強力なベースラインからのキーワードベースのトピックよりも解釈可能であることを示す。
論文 参考訳(メタデータ) (2025-09-26T11:27:22Z) - Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering [49.43814054718318]
マルチホップ質問応答 (MHQA) は、正しい回答を得るために複数の経路に散在する知識を統合する必要がある。
従来の検索拡張生成法(RAG)は主に粗い粒度のテキスト意味的類似性に焦点を当てている。
本稿では,HGRAG for MHQAという新しいRAG手法を提案する。
論文 参考訳(メタデータ) (2025-08-15T06:36:13Z) - Geological Everything Model 3D: A Promptable Foundation Model for Unified and Zero-Shot Subsurface Understanding [8.832957977030198]
Geological Everything Model 3D (GEM) は、タスクを迅速な条件付き推論として再構成する統合生成アーキテクチャである。
GEMは、新しいタスクやデータソースを再訓練することなく、不均一なプロンプト型を持つタスク間でゼロショットの一般化を実現する。
GEMは、火星レーダー層序解析、沈み込み帯の構造解釈、完全な地震層序解釈、地体セグメンテーション、資産モデリングなど、調査やタスクに幅広い適用性を示す。
論文 参考訳(メタデータ) (2025-07-01T04:14:13Z) - Analytical Discovery of Manifold with Machine Learning [2.6585498155499643]
GAMLA (Global Analytical Manifold Learning using Auto-Encoding) を導入する。
GAMLAは、基礎となる多様体のキャラクタリ表現と補表現の両方を導出するために、自動符号化フレームワーク内で2ラウンドのトレーニングプロセスを採用している。
2つの表現を合わせて潜在空間全体を分解し、したがって多様体を取り巻く局所空間構造を特徴づけることができる。
論文 参考訳(メタデータ) (2025-04-03T11:53:00Z) - Layerwise Recall and the Geometry of Interwoven Knowledge in LLMs [0.0]
本研究では,大規模言語モデル (LLM) が織り込んだ科学知識のエンコード方法について検討する。
周期表の概念構造と一致する隠れ状態の3次元スパイラル構造を同定する。
線形探索により、中間層は間接的リコールを可能にするような連続的な重なり合う属性を符号化し、深い層は分類的区別を鋭くし、言語的文脈を取り入れていることが明らかになった。
論文 参考訳(メタデータ) (2025-02-15T18:08:51Z) - Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Feature construction using explanations of individual predictions [0.0]
本稿では,予測モデルのインスタンスベース説明の集約に基づく探索空間の削減手法を提案する。
これらのグループに対する探索の削減が特徴構築の時間を大幅に短縮することを実証的に示す。
いくつかの分類器の分類精度を大幅に向上させ,大規模データセットにおいても提案する特徴構築の実現可能性を示した。
論文 参考訳(メタデータ) (2023-01-23T18:59:01Z) - BSAL: A Framework of Bi-component Structure and Attribute Learning for
Link Prediction [33.488229191263564]
トポロジや特徴空間からの情報を適応的に活用する二成分構造・属性学習フレームワーク(BSAL)を提案する。
BSALはノード属性を介してセマンティックトポロジを構築し、セマンティックビューに関する埋め込みを取得する。
ノード属性が持つ情報を適応的に組み込む、フレキシブルで実装が容易なソリューションを提供する。
論文 参考訳(メタデータ) (2022-04-18T03:12:13Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。