論文の概要: When Annotators Disagree, Topology Explains: Mapper, a Topological Tool for Exploring Text Embedding Geometry and Ambiguity
- arxiv url: http://arxiv.org/abs/2510.17548v1
- Date: Mon, 20 Oct 2025 13:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.058941
- Title: When Annotators Disagree, Topology Explains: Mapper, a Topological Tool for Exploring Text Embedding Geometry and Ambiguity
- Title(参考訳): アノテーションが診断する時、トポロジが説明する: 幾何学と曖昧さを包含するテキストを探索するトポロジツールMapper
- Authors: Nisrine Rair, Alban Goupil, Valeriu Vrabie, Emmanuel Chochoy,
- Abstract要約: 本稿では,微調整によるエンコードあいまいさの分析のためのトポロジ的視点を提案する。
われわれの発見は、Mapperをモデルがあいまいさをどう解決するかを理解するための強力なツールと位置づけた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are often evaluated with scalar metrics like accuracy, but such measures fail to capture how models internally represent ambiguity, especially when human annotators disagree. We propose a topological perspective to analyze how fine-tuned models encode ambiguity and more generally instances. Applied to RoBERTa-Large on the MD-Offense dataset, Mapper, a tool from topological data analysis, reveals that fine-tuning restructures embedding space into modular, non-convex regions aligned with model predictions, even for highly ambiguous cases. Over $98\%$ of connected components exhibit $\geq 90\%$ prediction purity, yet alignment with ground-truth labels drops in ambiguous data, surfacing a hidden tension between structural confidence and label uncertainty. Unlike traditional tools such as PCA or UMAP, Mapper captures this geometry directly uncovering decision regions, boundary collapses, and overconfident clusters. Our findings position Mapper as a powerful diagnostic tool for understanding how models resolve ambiguity. Beyond visualization, it also enables topological metrics that may inform proactive modeling strategies in subjective NLP tasks.
- Abstract(参考訳): 言語モデルは、精度のようなスカラーな指標で評価されることが多いが、そのような尺度は、モデルの内部的なあいまいさ、特に人間のアノテータが同意しない場合、どのように表現するかを捉えることができない。
本稿では,微調整モデルがどのように曖昧さやより一般的なインスタンスを符号化するかを解析するためのトポロジカルな視点を提案する。
MD-OffenseデータセットのRoBERTa-Largeに応用された、トポロジカルデータ解析のツールであるMapperは、高度にあいまいなケースであっても、モジュラーで非凸な領域に空間を埋め込む微調整の再構成がモデル予測と一致していることを明らかにする。
980\%以上の接続されたコンポーネントは、$\geq 90\%の予測純度を示すが、地味なラベルとの整合性は曖昧なデータに落ち、構造的信頼とラベルの不確実性の間に隠れた緊張を生じさせる。
PCAやUMAPのような従来のツールとは異なり、Mapperはこの幾何学を捉え、決定領域、境界崩壊、過信クラスタを直接発見する。
その結果,Mapperはモデルがあいまいさをどう解決するかを理解するための強力な診断ツールとして位置づけられた。
可視化以外にも、主観的なNLPタスクにおいて、プロアクティブなモデリング戦略を通知するトポロジカルメトリクスも実現している。
関連論文リスト
- Diagnosing Generalization Failures from Representational Geometry Markers [8.403001493770427]
医用バイオマーカーにインスパイアされた一般化失敗について検討する。
我々は,ネットワークマーカーを設計,テストし,構造や機能リンクの探索,予後指標の同定,実環境における予測の検証を行う。
この研究は、表現幾何学が隠れた脆弱性を隠蔽し、モデル選択とAI解釈可能性に関するより堅牢なガイダンスを提供することを示した。
論文 参考訳(メタデータ) (2026-03-02T13:59:19Z) - Bridging Structure and Appearance: Topological Features for Robust Self-Supervised Segmentation [8.584363058858935]
自己教師付きセマンティックセグメンテーション法は、外観の曖昧さに直面して失敗することが多い。
これは、影、光沢、局所的なテクスチャといった不安定で外観に基づく特徴に過度に依存しているためである、と我々は主張する。
安定な位相情報を活用することで外観と幾何学を橋渡しする新しいフレームワークである textbfGASeg を提案する。
論文 参考訳(メタデータ) (2025-12-30T05:34:28Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion [1.2703808802607108]
知識グラフ埋め込み(KGE)モデルは知識グラフ補完のために広く研究されている。
標準的な評価基準は、欠落した三重項を正確に予測するためのモデルを罰するクローズドワールドの仮定に依存している。
本稿では,大規模データセットFB-CVT-REVとFB+CVT-REVの4つの代表的なKGEモデルを包括的に評価する。
論文 参考訳(メタデータ) (2025-04-11T20:49:02Z) - Topological Parallax: A Geometric Specification for Deep Perception
Models [0.778001492222129]
本稿では,学習したモデルを参照データセットと比較する理論的・計算ツールとしてトポロジカルパララックスを導入する。
我々の例では、データセットとモデルの間のこの幾何学的類似性は、信頼性と摂動に不可欠である。
この新しい概念は、ディープラーニングの応用における過度な適合と一般化の間の不明瞭な関係について、現在の議論に価値をもたらすだろう。
論文 参考訳(メタデータ) (2023-06-20T18:45:24Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Spatial machine-learning model diagnostics: a model-agnostic
distance-based approach [91.62936410696409]
本研究は,空間予測誤差プロファイル (SPEP) と空間変数重要度プロファイル (SVIP) を,新しいモデルに依存しない評価・解釈ツールとして提案する。
統計学的手法、線形モデル、ランダムフォレスト、ハイブリッドアルゴリズムのSPEPとSVIPは、顕著な差異と関連する類似性を示している。
この新しい診断ツールは空間データ科学のツールキットを充実させ、MLモデルの解釈、選択、設計を改善する可能性がある。
論文 参考訳(メタデータ) (2021-11-13T01:50:36Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Explaining Predictions by Approximating the Local Decision Boundary [3.60160227126201]
局所決定境界近似(DBA)の新しい手法を提案する。
我々は変分オートエンコーダを訓練し、符号化されたデータ表現のユークリッド潜在空間を学習する。
我々は属性アノテーションを利用して、潜在空間をユーザにとって意味のある属性にマッピングします。
論文 参考訳(メタデータ) (2020-06-14T19:12:42Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。