論文の概要: Predict Training Data Quality via Its Geometry in Metric Space
- arxiv url: http://arxiv.org/abs/2510.15970v1
- Date: Sun, 12 Oct 2025 16:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.733598
- Title: Predict Training Data Quality via Its Geometry in Metric Space
- Title(参考訳): 計量空間における幾何によるデータ品質予測
- Authors: Yang Ba, Mohammad Sadeq Abolhasani, Rong Pan,
- Abstract要約: 本稿では,学習結果に重要な影響を与える訓練データにおける表現の豊かさと冗長性の排除を提案する。
これを調べるために,距離空間内のデータから位相的特徴を抽出するために,永続的ホモロジーを用いる。
この結果から,AIシステムを駆動するトレーニングデータを解析・拡張するための強力なツールとして,永続的ホモロジーが注目されている。
- 参考スコア(独自算出の注目度): 7.056460460498077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality training data is the foundation of machine learning and artificial intelligence, shaping how models learn and perform. Although much is known about what types of data are effective for training, the impact of the data's geometric structure on model performance remains largely underexplored. We propose that both the richness of representation and the elimination of redundancy within training data critically influence learning outcomes. To investigate this, we employ persistent homology to extract topological features from data within a metric space, thereby offering a principled way to quantify diversity beyond entropy-based measures. Our findings highlight persistent homology as a powerful tool for analyzing and enhancing the training data that drives AI systems.
- Abstract(参考訳): 高品質なトレーニングデータは、機械学習と人工知能の基礎であり、モデルの学習とパフォーマンスの方法を形成する。
トレーニングに有効なデータの種類については多くは分かっていないが、データの幾何学的構造がモデル性能に与える影響はいまだに未調査である。
本稿では,表現の豊かさと訓練データ中の冗長性の排除が学習結果に重大な影響を与えることを提案する。
これを調べるため,計量空間内のデータからトポロジ的特徴を抽出するために永続的ホモロジーを用い,エントロピーに基づく測度を超えた多様性の定量化を原則とした方法を提案する。
この結果から,AIシステムを駆動するトレーニングデータを解析・拡張するための強力なツールとして,永続的ホモロジーが注目されている。
関連論文リスト
- Data Shift of Object Detection in Autonomous Driving [0.40792653193642503]
自律走行物体検出タスクにおけるデータシフト問題について検討する。
我々は、データセットの分類とバランスをとるためにシフト検出分析技術を採用している。
このアプローチを検証するために,CycleGANベースのデータ拡張技術とYOLOv5フレームワークを統合することにより,モデルを最適化する。
論文 参考訳(メタデータ) (2025-08-16T01:52:31Z) - Benchmarking Federated Machine Unlearning methods for Tabular Data [9.30408906787193]
マシンアンラーニングにより、モデルは要求時に特定のデータを忘れることができる。
本稿では,フェデレートされた環境での機械学習手法のベンチマークに関する先駆的な研究について述べる。
機械学習、ランダムフォレスト、ロジスティック回帰モデルの両方を用いて、この機能とインスタンスレベルでのアンラーニングについて検討する。
論文 参考訳(メタデータ) (2025-04-01T15:53:36Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Sexism Detection on a Data Diet [14.899608305188002]
モデルのトレーニング中に、インフルエンススコアを利用してデータポイントの重要性を推定する方法を示します。
ドメイン外の3つのデータセット上で異なるプルーニング戦略を用いて、データプルーニングに基づいてトレーニングされたモデル性能を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:39:54Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Homogenization of Existing Inertial-Based Datasets to Support Human
Activity Recognition [8.076841611508486]
信号から日常生活の行動を認識する問題に対処するために,いくつかの手法が提案されている。
慣性信号に適用する深層学習技術は有効であることが証明されており、かなりの分類精度が達成されている。
人間の行動認識モデルの研究は、ほぼ完全にモデル中心である。
論文 参考訳(メタデータ) (2022-01-17T14:29:48Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。