論文の概要: Encoding of data sets and algorithms
- arxiv url: http://arxiv.org/abs/2303.00984v1
- Date: Thu, 2 Mar 2023 05:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:51:10.677355
- Title: Encoding of data sets and algorithms
- Title(参考訳): データセットとアルゴリズムの符号化
- Authors: Katarina Doctor, Tong Mao, Hrushikesh Mhaskar
- Abstract要約: 多くの高インパクトアプリケーションにおいて、機械学習アルゴリズムの出力品質を保証することが重要である。
我々は、ある指標の観点から、どのモデルが互いに近いかを決定するために、数学的に厳密な理論を開始した。
このグリッドに作用する所定のしきい値メートル法は、それぞれのアルゴリズムと関心のデータセットから、任意のアプリケーションに近接性(または統計的距離)を表現します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many high-impact applications, it is important to ensure the quality of
output of a machine learning algorithm as well as its reliability in comparison
with the complexity of the algorithm used. In this paper, we have initiated a
mathematically rigorous theory to decide which models (algorithms applied on
data sets) are close to each other in terms of certain metrics, such as
performance and the complexity level of the algorithm. This involves creating a
grid on the hypothetical spaces of data sets and algorithms so as to identify a
finite set of probability distributions from which the data sets are sampled
and a finite set of algorithms. A given threshold metric acting on this grid
will express the nearness (or statistical distance) from each algorithm and
data set of interest to any given application. A technically difficult part of
this project is to estimate the so-called metric entropy of a compact subset of
functions of \textbf{infinitely many variables} that arise in the definition of
these spaces.
- Abstract(参考訳): 多くの高インパクトアプリケーションでは、使用するアルゴリズムの複雑さと比較して、機械学習アルゴリズムの出力品質と信頼性を保証することが重要である。
本稿では,アルゴリズムの性能や複雑性といった特定の指標から,どのモデル(データ集合に適用されるアルゴリズム)が互いに近いかを決定するために,数学的に厳密な理論を開始した。
これには、データセットとアルゴリズムの仮想空間上にグリッドを作成して、データセットをサンプリングした有限個の確率分布と有限個のアルゴリズムの集合を特定することが含まれる。
このグリッドに作用する所定のしきい値計量は、各アルゴリズムと利害関係のデータセットから任意のアプリケーションへの近さ(または統計距離)を表現する。
このプロジェクトの技術的に難しい部分は、これらの空間の定義で生じる \textbf{infinitely many variable} のコンパクト部分集合のいわゆる計量エントロピーを推定することである。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Accelerating ERM for data-driven algorithm design using output-sensitive techniques [26.32088674030797]
データ駆動型アルゴリズム設計のための効率的な学習アルゴリズムを開発するための技術について研究する。
提案手法は,超平面の集合によって誘導されるポリトープを列挙する出力感受性アルゴリズムである。
本稿では、価格問題、リンクベースのクラスタリング、動的プログラミングに基づくシーケンスアライメントのアルゴリズムを提供することにより、我々の技術を説明する。
論文 参考訳(メタデータ) (2022-04-07T17:27:18Z) - Pre-Clustering Point Clouds of Crop Fields Using Scalable Methods [14.06711982797654]
この問題に対する現在の最先端技術と、一般的な密度に基づくクラスタリングアルゴリズムであるQuickshiftの類似性を示す。
汎用的でスケーラブルなプラントセグメンテーションアルゴリズムを作成することを目的とした,新しいアプリケーション固有アルゴリズムを提案する。
フィールドスケールの表現型システムに組み込む場合、提案アルゴリズムは、結果の精度を大幅に向上させる代替品として機能する。
論文 参考訳(メタデータ) (2021-07-22T22:47:22Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Fuzzy clustering algorithms with distance metric learning and entropy
regularization [0.0]
本稿では,ユークリッド,シティブロック,マハラノビス距離とエントロピー正規化に基づくファジィクラスタリングアルゴリズムを提案する。
合成および実データセットに関するいくつかの実験は、ノイズの多い画像テクスチャセグメンテーションへの応用を含む、これらの適応クラスタリング手法の有用性を実証している。
論文 参考訳(メタデータ) (2021-02-18T18:19:04Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Data-driven Algorithm Design [21.39493074700162]
データ駆動型アルゴリズム設計は、現代のデータ科学とアルゴリズム設計の重要な側面である。
パラメータの小さな微調整は、アルゴリズムの振る舞いのカスケードを引き起こす可能性がある。
バッチおよびオンラインシナリオに対して、強力な計算および統計的パフォーマンス保証を提供する。
論文 参考訳(メタデータ) (2020-11-14T00:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。