論文の概要: Measuring Dataset Diversity from a Geometric Perspective
- arxiv url: http://arxiv.org/abs/2602.09340v1
- Date: Tue, 10 Feb 2026 02:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.330954
- Title: Measuring Dataset Diversity from a Geometric Perspective
- Title(参考訳): 幾何学的視点から見たデータセットの多様性の測定
- Authors: Yang Ba, Mohammad Sadeq Abolhasani, Michelle V Mancenido, Rong Pan,
- Abstract要約: トポロジカルデータ解析(TDA)とパーシステンスランドスケープ(PL)に基づくフレームワークを導入し,データから幾何学的特徴を抽出し定量化する。
提案するPLs-based diversity metric (PLDiv) は強力で信頼性が高く,解釈可能である。
- 参考スコア(独自算出の注目度): 6.87941190955006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diversity can be broadly defined as the presence of meaningful variation across elements, which can be viewed from multiple perspectives, including statistical variation and geometric structural richness in the dataset. Existing diversity metrics, such as feature-space dispersion and metric-space magnitude, primarily capture distributional variation or entropy, while largely neglecting the geometric structure of datasets. To address this gap, we introduce a framework based on topological data analysis (TDA) and persistence landscapes (PLs) to extract and quantify geometric features from data. This approach provides a theoretically grounded means of measuring diversity beyond entropy, capturing the rich geometric and structural properties of datasets. Through extensive experiments across diverse modalities, we demonstrate that our proposed PLs-based diversity metric (PLDiv) is powerful, reliable, and interpretable, directly linking data diversity to its underlying geometry and offering a foundational tool for dataset construction, augmentation, and evaluation.
- Abstract(参考訳): 多様性は、要素間の有意義な変動の存在として広く定義することができ、統計的変動やデータセットの幾何学的構造的豊かさなど、複数の視点から見ることができる。
特徴空間の分散やメートル法空間の大きさといった既存の多様性指標は、主に分布の変動やエントロピーを捉え、データセットの幾何学的構造を無視する。
このギャップに対処するために、トポロジカルデータ解析(TDA)と永続化ランドスケープ(PL)に基づくフレームワークを導入し、データから幾何学的特徴を抽出し定量化する。
このアプローチは、エントロピーを超えた多様性を測る理論的に基礎的な手段を提供し、データセットの豊富な幾何学的および構造的性質を捉えている。
多様なモダリティにわたる広範な実験を通じて,提案するPLDivは強力で信頼性が高く,解釈可能であることを実証し,データ多様性を基礎となる幾何学と直接リンクさせ,データセット構築,拡張,評価のための基礎的ツールを提供する。
関連論文リスト
- Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標であるNovellSumを提案する。
シミュレーションデータと実世界のデータの両方の実験により、NovellSumは正確に多様性の変動を捉え、命令調整されたモデルの性能と0.97の相関を達成している。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - (Deep) Generative Geodesics [57.635187092922976]
2つのデータポイント間の類似性を評価するために,新しい測定基準を導入する。
我々の計量は、生成距離と生成測地学の概念的定義に繋がる。
彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。
論文 参考訳(メタデータ) (2024-07-15T21:14:02Z) - Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - Metric Space Magnitude for Evaluating the Diversity of Latent Representations [13.272500655475486]
我々は,潜伏表現の内在的多様性の等級に基づく尺度群を開発する。
我々の測度はデータの摂動下で確実に安定しており、効率的に計算でき、厳密なマルチスケールのキャラクタリゼーションと潜在表現の比較を可能にする。
i) 多様性の自動推定, (ii) モード崩壊の検出, (iii) テキスト, 画像, グラフデータの生成モデルの評価など, さまざまな領域やタスクにおけるそれらの実用性と優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T18:19:07Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文 参考訳(メタデータ) (2023-02-01T07:50:26Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。