論文の概要: Density-Aware Farthest Point Sampling
- arxiv url: http://arxiv.org/abs/2509.13213v1
- Date: Tue, 16 Sep 2025 16:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.167589
- Title: Density-Aware Farthest Point Sampling
- Title(参考訳): 密度を考慮した遠点サンプリング
- Authors: Paolo Climaco, Jochen Garcke,
- Abstract要約: 本稿では,新しいサンプリング手法であるDA-FPS(Density-Aware Farthest Point Smpling)を紹介する。
DA-FPSは重み付き充填距離をデータ駆動で推定するための近似最小値を提供する。
その結果, DA-FPSは, 他のサンプリング手法と比較して平均絶対誤差を著しく低減することがわかった。
- 参考スコア(独自算出の注目度): 2.9434930072968584
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We focus on training machine learning regression models in scenarios where the availability of labeled training data is limited due to computational constraints or high labeling costs. Thus, selecting suitable training sets from unlabeled data is essential for balancing performance and efficiency. For the selection of the training data, we focus on passive and model-agnostic sampling methods that only consider the data feature representations. We derive an upper bound for the expected prediction error of Lipschitz continuous regression models that linearly depends on the weighted fill distance of the training set, a quantity we can estimate simply by considering the data features. We introduce "Density-Aware Farthest Point Sampling" (DA-FPS), a novel sampling method. We prove that DA-FPS provides approximate minimizers for a data-driven estimation of the weighted fill distance, thereby aiming at minimizing our derived bound. We conduct experiments using two regression models across three datasets. The results demonstrate that DA-FPS significantly reduces the mean absolute prediction error compared to other sampling strategies.
- Abstract(参考訳): 我々は、ラベル付きトレーニングデータの可用性が計算制約や高いラベル付けコストによって制限されるシナリオにおいて、機械学習回帰モデルをトレーニングすることに重点を置いている。
したがって、性能と効率のバランスをとるためには、ラベルのないデータから適切なトレーニングセットを選択することが不可欠である。
トレーニングデータの選択には,データ特徴表現のみを考慮した受動的およびモデルに依存しないサンプリング手法に着目する。
我々は、トレーニングセットの重み付き充填距離に線形に依存するリプシッツ連続回帰モデルの予測誤差に対する上限を導出する。
本稿では,新しいサンプリング手法であるDA-FPS(Density-Aware Farthest Point Smpling)を紹介する。
DA-FPSは、重み付き充填距離をデータ駆動で推定するための近似最小化器を提供するので、導出した境界を最小化することを目指している。
3つのデータセットにまたがる2つの回帰モデルを用いて実験を行う。
その結果, DA-FPSは, 他のサンプリング手法と比較して平均絶対誤差を著しく低減することがわかった。
関連論文リスト
- Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。
2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。
Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-20T11:59:32Z) - Effective Data Pruning through Score Extrapolation [40.61665742457229]
少数のデータのみをトレーニングする必要のある,新たな重要スコア外挿フレームワークを導入する。
このフレームワークでは,この最小限のサブセットから学習したパターンを用いて,データセット全体のサンプル重要度を正確に予測する2つの初期アプローチを提案する。
以上の結果から,スコアの補間は,プルーニングやデータ属性,その他のタスクなど,高価なスコア計算手法をスケールする上で有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2025-06-10T17:38:49Z) - ReAugment: Model Zoo-Guided RL for Few-Shot Time Series Augmentation and Forecasting [74.00765474305288]
本稿では,時系列データ拡張のための強化学習(RL)の試験的検討を行う。
我々の手法であるReAugmentは、トレーニングセットのどの部分が拡張されるべきか、どのように拡張を行うべきか、RLがプロセスにどのような利点をもたらすのか、という3つの重要な問題に取り組む。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - On minimizing the training set fill distance in machine learning regression [0.552480439325792]
本研究では,選択した集合の充填距離を最小化することを目的としたデータ選択手法を提案する。
FPSを用いてトレーニングセットを選択することで、ガウスカーネル回帰アプローチの特定の場合のモデルの安定性を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-07-20T16:18:33Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。