論文の概要: Optimal Representative Sample Weighting
- arxiv url: http://arxiv.org/abs/2005.09065v1
- Date: Mon, 18 May 2020 20:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:22:18.893823
- Title: Optimal Representative Sample Weighting
- Title(参考訳): 最適な代表サンプル重み付け
- Authors: Shane Barratt, Guillermo Angeris, Stephen Boyd
- Abstract要約: 重み付けを代表的に行うことを目的として,サンプルやデータ記録に重み付けを割り当てる問題を考察する。
代表標本重みを求める問題を最適化問題として, 多くの場合, 凸であり, 効率よく解ける問題である。
本稿では,提案するアイデアのオープンソース実装であるrswについて述べるとともに,CDC BRFSSデータセットのスキューサンプルに適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of assigning weights to a set of samples or data
records, with the goal of achieving a representative weighting, which happens
when certain sample averages of the data are close to prescribed values. We
frame the problem of finding representative sample weights as an optimization
problem, which in many cases is convex and can be efficiently solved. Our
formulation includes as a special case the selection of a fixed number of the
samples, with equal weights, i.e., the problem of selecting a smaller
representative subset of the samples. While this problem is combinatorial and
not convex, heuristic methods based on convex optimization seem to perform very
well. We describe rsw, an open-source implementation of the ideas described in
this paper, and apply it to a skewed sample of the CDC BRFSS dataset.
- Abstract(参考訳): 本研究では,データのサンプル平均値が所定の値に近い場合に発生する代表重み付けを達成することを目的として,サンプルやデータ記録に重みを割り当てる問題を考察する。
代表的なサンプル重みを求める問題は,多くの場合凸であり,効率的に解くことができる最適化問題である。
この定式化は, サンプルの固定数を等重数で選択する特別な場合, すなわち, サンプルのより小さな代表部分集合を選択する問題を含む。
この問題は組合せ的であり凸ではないものの、凸最適化に基づくヒューリスティックな手法は非常にうまく機能しているように見える。
本稿では,提案するアイデアのオープンソース実装であるrswについて述べるとともに,CDC BRFSSデータセットのスキューサンプルに適用する。
関連論文リスト
- Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - Leveraging Importance Weights in Subset Selection [45.54597544672441]
本稿では,任意のモデルファミリを実用的なバッチ設定で扱うように設計されたサブセット選択アルゴリズムを提案する。
我々のアルゴリズムであるIWeSは、各サンプルに割り当てられたサンプリング確率が、以前選択されたバッチで訓練されたモデルのエントロピーに基づいて、重要サンプリングによってサンプルを選択する。
論文 参考訳(メタデータ) (2023-01-28T02:07:31Z) - Optimal Efficiency-Envy Trade-Off via Optimal Transport [33.85971515753188]
本論では,各受取人に対して,各受取人に対して,各受取人に対して,各受取人に対して一定かつ所定の割合のアイテムを割り当てなければならないという問題を考察する。
この問題は半離散的最適輸送(OT)問題の変種として定式化でき、その場合の解構造は簡潔な表現と単純な幾何学的解釈を持つ。
論文 参考訳(メタデータ) (2022-09-25T00:39:43Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Wasserstein Distributionally Robust Optimization via Wasserstein
Barycenters [10.103413548140848]
確率分布の一定距離内にデータサンプルから構築した名目分布から,最も有害な分布下で良好に機能するデータ駆動決定を求める。
本稿では,複数の情報源からのデータサンプルの集約として,Wasserstein Barycenterという概念を用いて,分散的に頑健な最適化問題における名目分布を構築することを提案する。
論文 参考訳(メタデータ) (2022-03-23T02:03:47Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Finding Influential Instances for Distantly Supervised Relation
Extraction [42.94953922808431]
本研究は、影響関数(IF)による距離監視(DS)のための新しいモデル非依存型インスタンスサンプリング法を提案する。
提案手法は、IFに基づいてバッグ内の好ましくない/好ましくないインスタンスを特定し、次に動的インスタンスサンプリングを行う。
実験の結果、REIFは複雑なアーキテクチャを持つ一連のベースラインに勝てることがわかった。
論文 参考訳(メタデータ) (2020-09-17T02:02:07Z) - Approximating a Target Distribution using Weight Queries [25.392248158616862]
本稿では,データセットの例を反復的に選択し,対応する重み付けクエリを実行する対話型アルゴリズムを提案する。
我々は,アルゴリズムが検出した再重み付けと,最も達成可能な再重み付けとの間の全変動距離に依存する近似を導出する。
論文 参考訳(メタデータ) (2020-06-24T11:17:43Z) - Bandit Samplers for Training Graph Neural Networks [63.17765191700203]
グラフ畳み込みネットワーク(GCN)の訓練を高速化するために, ばらつきを低減したサンプリングアルゴリズムが提案されている。
これらのサンプリングアルゴリズムは、グラフ注意ネットワーク(GAT)のような固定重みよりも学習重量を含む、より一般的なグラフニューラルネットワーク(GNN)には適用できない。
論文 参考訳(メタデータ) (2020-06-10T12:48:37Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。