論文の概要: Model-free Subsampling Method Based on Uniform Designs
- arxiv url: http://arxiv.org/abs/2209.03617v1
- Date: Thu, 8 Sep 2022 07:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:25:23.946568
- Title: Model-free Subsampling Method Based on Uniform Designs
- Title(参考訳): 一様設計に基づくモデルフリーサブサンプリング法
- Authors: Mei Zhang, Yongdao Zhou, Zheng Zhou, Aijun Zhang
- Abstract要約: 我々は,既存の一様設計に基づく低GEFDデータ駆動サブサンプリング手法を開発した。
我々の手法は様々なモデル仕様の下で頑健であり、他の一般的なサブサンプリング手法は性能が低い。
- 参考スコア(独自算出の注目度): 5.661822729320697
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Subsampling or subdata selection is a useful approach in large-scale
statistical learning. Most existing studies focus on model-based subsampling
methods which significantly depend on the model assumption. In this paper, we
consider the model-free subsampling strategy for generating subdata from the
original full data. In order to measure the goodness of representation of a
subdata with respect to the original data, we propose a criterion, generalized
empirical F-discrepancy (GEFD), and study its theoretical properties in
connection with the classical generalized L2-discrepancy in the theory of
uniform designs. These properties allow us to develop a kind of low-GEFD
data-driven subsampling method based on the existing uniform designs. By
simulation examples and a real case study, we show that the proposed
subsampling method is superior to the random sampling method. Moreover, our
method keeps robust under diverse model specifications while other popular
subsampling methods are under-performing. In practice, such a model-free
property is more appealing than the model-based subsampling methods, where the
latter may have poor performance when the model is misspecified, as
demonstrated in our simulation studies.
- Abstract(参考訳): サブサンプリングまたはサブデータ選択は、大規模統計学習において有用なアプローチである。
既存の研究の多くは、モデルの仮定に大きく依存するモデルベースのサブサンプリング手法に焦点を当てている。
本稿では,元のフルデータからサブデータを生成するためのモデルフリーのサブサンプリング戦略について検討する。
原データに対するサブデータの表現の良し悪しを計測するために、基準、一般化された経験的f-離散性(gefd)を提案し、その理論的性質を一様設計の理論における古典的な一般化されたl2-離散性と関連づけて研究する。
これらの特性により,既存の一様設計に基づく低GEFDデータ駆動サブサンプリング手法の開発が可能となる。
シミュレーション例と実ケーススタディにより,提案手法がランダムサンプリング法よりも優れていることを示す。
さらに,本手法は様々なモデル仕様の下で頑健であり,他の一般的なサブサンプリング手法では性能が低い。
実際、このようなモデルフリーな特性はモデルベースのサブサンプリング法よりも魅力的であり、シミュレーション研究で示されているように、モデルが不特定の場合に性能が低下する可能性がある。
関連論文リスト
- Representer Point Selection for Explaining Regularized High-dimensional
Models [105.75758452952357]
本稿では,高次元表現器と呼ぶサンプルベース説明のクラスを紹介する。
私たちのワークホースは、一般化された高次元モデルに対する新しい代表者定理である。
提案手法の実証的性能について,実世界の2進分類データセットと2つの推薦システムデータセットを用いて検討した。
論文 参考訳(メタデータ) (2023-05-31T16:23:58Z) - Learning Robust Statistics for Simulation-based Inference under Model
Misspecification [23.331522354991527]
本稿では,シミュレーションに基づく推論手法の異なるクラスにまたがって機能するモデル不特定性を扱うための,最初の一般的なアプローチを提案する。
提案手法は,モデルが適切に特定された場合の精度を保ちながら,不特定シナリオにおいて頑健な推論をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-25T09:06:26Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Comparing Foundation Models using Data Kernels [13.099029073152257]
基礎モデルの埋め込み空間幾何学を直接比較するための方法論を提案する。
提案手法はランダムグラフ理論に基づいており, 埋め込み類似性の有効な仮説検証を可能にする。
本稿では, 距離関数を付加したモデルの多様体が, 下流の指標と強く相関することを示す。
論文 参考訳(メタデータ) (2023-05-09T02:01:07Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - An optimal transport approach for selecting a representative subsample
with application in efficient kernel density estimation [21.632131776088084]
サブサンプリング手法は、観察されたサンプルのサロゲートとしてサブサンプルを選択することを目的としている。
既存のモデルフリーのサブサンプリングメソッドは通常、クラスタリング技術やカーネルのトリックに基づいて構築される。
最適な輸送手法を用いたモデルフリーサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T05:19:29Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - On Statistical Efficiency in Learning [37.08000833961712]
モデルフィッティングとモデル複雑性のバランスをとるためのモデル選択の課題に対処する。
モデルの複雑さを順次拡大し、選択安定性を高め、コストを削減するオンラインアルゴリズムを提案します。
実験の結果, 提案手法は予測能力が高く, 計算コストが比較的低いことがわかった。
論文 参考訳(メタデータ) (2020-12-24T16:08:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z) - Amortized Bayesian model comparison with evidential deep learning [0.12314765641075436]
本稿では,専門的なディープラーニングアーキテクチャを用いたベイズモデルの比較手法を提案する。
提案手法は純粋にシミュレーションベースであり,観測された各データセットに対して,すべての代替モデルを明示的に適合させるステップを回避している。
提案手法は,本研究で検討した事例に対して,精度,キャリブレーション,効率の点で優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-22T15:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。