論文の概要: Small coresets via negative dependence: DPPs, linear statistics, and concentration
- arxiv url: http://arxiv.org/abs/2411.00611v1
- Date: Fri, 01 Nov 2024 14:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:52.207693
- Title: Small coresets via negative dependence: DPPs, linear statistics, and concentration
- Title(参考訳): 負の依存による小さなコアセット:DPP、線形統計、濃度
- Authors: Rémi Bardenet, Subhroshekhar Ghosh, Hugo Simon-Onfroy, Hoang-Son Tran,
- Abstract要約: DPPは変化可能な負の依存を持つ点のランダムな構成である。
最近の研究は、ランダム化されたコアセットを構築するためにDPPを使うことを支持する、重要な実証的な支援を提供している。
本稿では,emphDPPが独立に描画されたコアセットよりも優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 11.037091276465734
- License:
- Abstract: Determinantal point processes (DPPs) are random configurations of points with tunable negative dependence. Because sampling is tractable, DPPs are natural candidates for subsampling tasks, such as minibatch selection or coreset construction. A \emph{coreset} is a subset of a (large) training set, such that minimizing an empirical loss averaged over the coreset is a controlled replacement for the intractable minimization of the original empirical loss. Typically, the control takes the form of a guarantee that the average loss over the coreset approximates the total loss uniformly across the parameter space. Recent work has provided significant empirical support in favor of using DPPs to build randomized coresets, coupled with interesting theoretical results that are suggestive but leave some key questions unanswered. In particular, the central question of whether the cardinality of a DPP-based coreset is fundamentally smaller than one based on independent sampling remained open. In this paper, we answer this question in the affirmative, demonstrating that \emph{DPPs can provably outperform independently drawn coresets}. In this vein, we contribute a conceptual understanding of coreset loss as a \emph{linear statistic} of the (random) coreset. We leverage this structural observation to connect the coresets problem to a more general problem of concentration phenomena for linear statistics of DPPs, wherein we obtain \emph{effective concentration inequalities that extend well-beyond the state-of-the-art}, encompassing general non-projection, even non-symmetric kernels. The latter have been recently shown to be of interest in machine learning beyond coresets, but come with a limited theoretical toolbox, to the extension of which our result contributes. Finally, we are also able to address the coresets problem for vector-valued objective functions, a novelty in the coresets literature.
- Abstract(参考訳): 決定点過程 (Determinantal point process, DPPs) は、変化可能な負の依存を持つ点のランダムな構成である。
サンプリングはトラクタブルであるため、DPPはミニバッチ選択やコアセット構成のようなサブサンプリングタスクの自然な候補である。
emph{coreset} は(より大きな)トレーニングセットのサブセットであり、コアセット上で平均化された経験損失を最小化することは、元の経験損失の難易度を最小化するための制御された置換である。
通常、制御はコアセット上の平均損失がパラメータ空間全体の損失を均一に近似することを保証する形式をとる。
最近の研究は、ランダム化されたコアセットを構築するためにDPPを使うことに賛成し、興味深い理論的結果とともに、示唆されるが、いくつかの重要な疑問を未解決のまま残している。
特に、DPPベースのコアセットの濃度が、独立サンプリングに基づくコアセットよりも根本的に小さいかどうかという中心的な問題は未解決のままである。
本稿では,この疑問を肯定的に解き,独立に描画されたコアセットを確実に上回ることを示す。
この静脈において、コアセットの損失の概念的理解を(ランダム)コアセットの 'emph{linear statistic} として貢献する。
この構造的観察を利用して、コアセット問題と DPP の線形統計学におけるより一般的な濃度現象の問題を結びつける。
後者は最近、コアセットを超えて機械学習に関心があることが示されているが、私たちの結果が貢献する拡張に限定した理論ツールボックスが付属している。
最後に、ベクトル値の目的関数に対するコアセット問題、すなわちコアセットの文献における新規性にも対処できる。
関連論文リスト
- No Dimensional Sampling Coresets for Classification [8.234735564035567]
我々は、感度サンプリングフレームワークを用いて、分類問題に対するコアセットについて知られていることを洗練し、一般化する。
我々の分析は、最初の非次元コアセットを提供するので、サイズは次元に依存しない。
私たちが開発している重要なツールは、主要な感度サンプリングアプローチのRadamacher複雑性バージョンです。
論文 参考訳(メタデータ) (2024-02-07T21:53:01Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - AutoCoreset: An Automatic Practical Coreset Construction Framework [65.37876706107764]
コアセットは入力セットの小さな重み付き部分集合であり、損失関数によく似ている。
本稿では,ユーザからの入力データと所望のコスト関数のみを必要とするコアセット構築のための自動フレームワークを提案する。
この集合は有限であるが、コア集合は極めて一般であることを示す。
論文 参考訳(メタデータ) (2023-05-19T19:59:52Z) - Pruning Neural Networks via Coresets and Convex Geometry: Towards No
Assumptions [10.635248457021499]
プルーニングはディープニューラルネットワーク(DNN)を圧縮するための主要なアプローチの1つである
モデルの重みと入力を軽度に仮定して,そのようなコアセットを計算するための,新しい,堅牢なフレームワークを提案する。
提案手法は,既存のコアセットに基づくニューラルプルーニング手法を,幅広いネットワークやデータセットで性能的に向上させる。
論文 参考訳(メタデータ) (2022-09-18T12:45:26Z) - A Unified Approach to Coreset Learning [24.79658173754555]
与えられたデータセットと損失関数のコアセットは、通常、与えられたクエリの集合からの全てのクエリの損失を近似する小さな重み付きセットである。
コアセット構築のための一般学習型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-04T17:48:05Z) - Bend-Net: Bending Loss Regularized Multitask Learning Network for Nuclei
Segmentation in Histopathology Images [65.47507533905188]
重なり合う核を正確に分離するために、曲げ損失正規化器を備えた新しいマルチタスク学習ネットワークを提案する。
新たに提案されたマルチタスク学習アーキテクチャは、3つのタスクから共有表現を学習することで一般化を促進する。
提案した曲げ損失は,輪郭点を大きな曲率で囲むために高いペナルティを定義し,小さな曲率で凸輪郭点に小さなペナルティを適用した。
論文 参考訳(メタデータ) (2021-09-30T17:29:44Z) - Nonparametric estimation of continuous DPPs with kernel methods [0.0]
パラメトリックおよび非パラメトリック推論法は、有限の場合、すなわち、点パターンが有限の基底集合に存在する場合において提案されている。
我々は、この最大可能性(MLE)問題の制限バージョンが、RKHSにおける非負関数に対する最近の表現定理の範囲内にあることを示す。
この有限次元問題を解くための固定点アルゴリズムを提案し,解析し,実証する。
論文 参考訳(メタデータ) (2021-06-27T11:57:14Z) - CPP-Net: Context-aware Polygon Proposal Network for Nucleus Segmentation [71.81734047345587]
核分割のためのコンテキストアウェアポリゴンプロポーザルネットワーク(CPP-Net)を提案する。
まず、距離予測のために各セル内の1つのピクセルではなく1つのポイントセットをサンプリングする。
次に,サンプリングされた点集合から予測を適応的に融合する信頼度に基づく重み付けモジュールを提案する。
第3に,予測された多角形形状を制約した新しい形状認識損失(sap)を提案する。
論文 参考訳(メタデータ) (2021-02-13T05:59:52Z) - Bending Loss Regularized Network for Nuclei Segmentation in
Histopathology Images [69.74667930907314]
核分割のための曲げ損失正規化ネットワークを提案する。
提案した曲げ損失は、大きな曲率を持つ輪郭点に対する高い罰則を定義し、小さな曲率を持つ輪郭点に小さな罰則を適用する。
曲げ損失の最小化は、複数の核を含む輪郭の発生を避けることができる。
論文 参考訳(メタデータ) (2020-02-03T21:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。