論文の概要: Measuring Dataset Diversity from a Geometric Perspective
- arxiv url: http://arxiv.org/abs/2602.09340v1
- Date: Tue, 10 Feb 2026 02:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.330954
- Title: Measuring Dataset Diversity from a Geometric Perspective
- Title(参考訳): 幾何学的視点から見たデータセットの多様性の測定
- Authors: Yang Ba, Mohammad Sadeq Abolhasani, Michelle V Mancenido, Rong Pan,
- Abstract要約: トポロジカルデータ解析(TDA)とパーシステンスランドスケープ(PL)に基づくフレームワークを導入し,データから幾何学的特徴を抽出し定量化する。
提案するPLs-based diversity metric (PLDiv) は強力で信頼性が高く,解釈可能である。
- 参考スコア(独自算出の注目度): 6.87941190955006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diversity can be broadly defined as the presence of meaningful variation across elements, which can be viewed from multiple perspectives, including statistical variation and geometric structural richness in the dataset. Existing diversity metrics, such as feature-space dispersion and metric-space magnitude, primarily capture distributional variation or entropy, while largely neglecting the geometric structure of datasets. To address this gap, we introduce a framework based on topological data analysis (TDA) and persistence landscapes (PLs) to extract and quantify geometric features from data. This approach provides a theoretically grounded means of measuring diversity beyond entropy, capturing the rich geometric and structural properties of datasets. Through extensive experiments across diverse modalities, we demonstrate that our proposed PLs-based diversity metric (PLDiv) is powerful, reliable, and interpretable, directly linking data diversity to its underlying geometry and offering a foundational tool for dataset construction, augmentation, and evaluation.
- Abstract(参考訳): 多様性は、要素間の有意義な変動の存在として広く定義することができ、統計的変動やデータセットの幾何学的構造的豊かさなど、複数の視点から見ることができる。
特徴空間の分散やメートル法空間の大きさといった既存の多様性指標は、主に分布の変動やエントロピーを捉え、データセットの幾何学的構造を無視する。
このギャップに対処するために、トポロジカルデータ解析(TDA)と永続化ランドスケープ(PL)に基づくフレームワークを導入し、データから幾何学的特徴を抽出し定量化する。
このアプローチは、エントロピーを超えた多様性を測る理論的に基礎的な手段を提供し、データセットの豊富な幾何学的および構造的性質を捉えている。
多様なモダリティにわたる広範な実験を通じて,提案するPLDivは強力で信頼性が高く,解釈可能であることを実証し,データ多様性を基礎となる幾何学と直接リンクさせ,データセット構築,拡張,評価のための基礎的ツールを提供する。
関連論文リスト
- GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標であるNovellSumを提案する。
シミュレーションデータと実世界のデータの両方の実験により、NovellSumは正確に多様性の変動を捉え、命令調整されたモデルの性能と0.97の相関を達成している。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - Wrapped Gaussian on the manifold of Symmetric Positive Definite Matrices [4.678796432640703]
円形および非平坦なデータ分布は、データ科学の様々な領域で広く使われている。
このようなデータの基盤となる幾何学を考慮に入れるための原則的なアプローチは、重要なものである。
この研究は、古典的な機械学習と統計手法をより複雑で構造化されたデータに拡張するための基礎となる。
論文 参考訳(メタデータ) (2025-02-03T16:46:46Z) - (Deep) Generative Geodesics [57.635187092922976]
2つのデータポイント間の類似性を評価するために,新しい測定基準を導入する。
我々の計量は、生成距離と生成測地学の概念的定義に繋がる。
彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。
論文 参考訳(メタデータ) (2024-07-15T21:14:02Z) - Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - Metric Space Magnitude for Evaluating the Diversity of Latent Representations [13.272500655475486]
我々は,潜伏表現の内在的多様性の等級に基づく尺度群を開発する。
我々の測度はデータの摂動下で確実に安定しており、効率的に計算でき、厳密なマルチスケールのキャラクタリゼーションと潜在表現の比較を可能にする。
i) 多様性の自動推定, (ii) モード崩壊の検出, (iii) テキスト, 画像, グラフデータの生成モデルの評価など, さまざまな領域やタスクにおけるそれらの実用性と優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T18:19:07Z) - Topological Parallax: A Geometric Specification for Deep Perception
Models [0.778001492222129]
本稿では,学習したモデルを参照データセットと比較する理論的・計算ツールとしてトポロジカルパララックスを導入する。
我々の例では、データセットとモデルの間のこの幾何学的類似性は、信頼性と摂動に不可欠である。
この新しい概念は、ディープラーニングの応用における過度な適合と一般化の間の不明瞭な関係について、現在の議論に価値をもたらすだろう。
論文 参考訳(メタデータ) (2023-06-20T18:45:24Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文 参考訳(メタデータ) (2023-02-01T07:50:26Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - A geometric framework for outlier detection in high-dimensional data [0.0]
異常検出はデータ分析において重要な課題である。
データセットのメトリック構造を利用するフレームワークを提供する。
この構造を利用することで,高次元データにおける外部観測の検出が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-07-01T12:07:51Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。