論文の概要: When Annotators Disagree, Topology Explains: Mapper, a Topological Tool for Exploring Text Embedding Geometry and Ambiguity
- arxiv url: http://arxiv.org/abs/2510.17548v1
- Date: Mon, 20 Oct 2025 13:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.058941
- Title: When Annotators Disagree, Topology Explains: Mapper, a Topological Tool for Exploring Text Embedding Geometry and Ambiguity
- Title(参考訳): アノテーションが診断する時、トポロジが説明する: 幾何学と曖昧さを包含するテキストを探索するトポロジツールMapper
- Authors: Nisrine Rair, Alban Goupil, Valeriu Vrabie, Emmanuel Chochoy,
- Abstract要約: 本稿では,微調整によるエンコードあいまいさの分析のためのトポロジ的視点を提案する。
われわれの発見は、Mapperをモデルがあいまいさをどう解決するかを理解するための強力なツールと位置づけた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are often evaluated with scalar metrics like accuracy, but such measures fail to capture how models internally represent ambiguity, especially when human annotators disagree. We propose a topological perspective to analyze how fine-tuned models encode ambiguity and more generally instances. Applied to RoBERTa-Large on the MD-Offense dataset, Mapper, a tool from topological data analysis, reveals that fine-tuning restructures embedding space into modular, non-convex regions aligned with model predictions, even for highly ambiguous cases. Over $98\%$ of connected components exhibit $\geq 90\%$ prediction purity, yet alignment with ground-truth labels drops in ambiguous data, surfacing a hidden tension between structural confidence and label uncertainty. Unlike traditional tools such as PCA or UMAP, Mapper captures this geometry directly uncovering decision regions, boundary collapses, and overconfident clusters. Our findings position Mapper as a powerful diagnostic tool for understanding how models resolve ambiguity. Beyond visualization, it also enables topological metrics that may inform proactive modeling strategies in subjective NLP tasks.
- Abstract(参考訳): 言語モデルは、精度のようなスカラーな指標で評価されることが多いが、そのような尺度は、モデルの内部的なあいまいさ、特に人間のアノテータが同意しない場合、どのように表現するかを捉えることができない。
本稿では,微調整モデルがどのように曖昧さやより一般的なインスタンスを符号化するかを解析するためのトポロジカルな視点を提案する。
MD-OffenseデータセットのRoBERTa-Largeに応用された、トポロジカルデータ解析のツールであるMapperは、高度にあいまいなケースであっても、モジュラーで非凸な領域に空間を埋め込む微調整の再構成がモデル予測と一致していることを明らかにする。
980\%以上の接続されたコンポーネントは、$\geq 90\%の予測純度を示すが、地味なラベルとの整合性は曖昧なデータに落ち、構造的信頼とラベルの不確実性の間に隠れた緊張を生じさせる。
PCAやUMAPのような従来のツールとは異なり、Mapperはこの幾何学を捉え、決定領域、境界崩壊、過信クラスタを直接発見する。
その結果,Mapperはモデルがあいまいさをどう解決するかを理解するための強力な診断ツールとして位置づけられた。
可視化以外にも、主観的なNLPタスクにおいて、プロアクティブなモデリング戦略を通知するトポロジカルメトリクスも実現している。
関連論文リスト
- On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion [1.2703808802607108]
知識グラフ埋め込み(KGE)モデルは知識グラフ補完のために広く研究されている。
標準的な評価基準は、欠落した三重項を正確に予測するためのモデルを罰するクローズドワールドの仮定に依存している。
本稿では,大規模データセットFB-CVT-REVとFB+CVT-REVの4つの代表的なKGEモデルを包括的に評価する。
論文 参考訳(メタデータ) (2025-04-11T20:49:02Z) - Topological Parallax: A Geometric Specification for Deep Perception
Models [0.778001492222129]
本稿では,学習したモデルを参照データセットと比較する理論的・計算ツールとしてトポロジカルパララックスを導入する。
我々の例では、データセットとモデルの間のこの幾何学的類似性は、信頼性と摂動に不可欠である。
この新しい概念は、ディープラーニングの応用における過度な適合と一般化の間の不明瞭な関係について、現在の議論に価値をもたらすだろう。
論文 参考訳(メタデータ) (2023-06-20T18:45:24Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Spatial machine-learning model diagnostics: a model-agnostic
distance-based approach [91.62936410696409]
本研究は,空間予測誤差プロファイル (SPEP) と空間変数重要度プロファイル (SVIP) を,新しいモデルに依存しない評価・解釈ツールとして提案する。
統計学的手法、線形モデル、ランダムフォレスト、ハイブリッドアルゴリズムのSPEPとSVIPは、顕著な差異と関連する類似性を示している。
この新しい診断ツールは空間データ科学のツールキットを充実させ、MLモデルの解釈、選択、設計を改善する可能性がある。
論文 参考訳(メタデータ) (2021-11-13T01:50:36Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Explaining Predictions by Approximating the Local Decision Boundary [3.60160227126201]
局所決定境界近似(DBA)の新しい手法を提案する。
我々は変分オートエンコーダを訓練し、符号化されたデータ表現のユークリッド潜在空間を学習する。
我々は属性アノテーションを利用して、潜在空間をユーザにとって意味のある属性にマッピングします。
論文 参考訳(メタデータ) (2020-06-14T19:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。