論文の概要: Can We Do Better Than Random Start? The Power of Data Outsourcing
- arxiv url: http://arxiv.org/abs/2205.08098v1
- Date: Tue, 17 May 2022 05:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 13:01:18.186500
- Title: Can We Do Better Than Random Start? The Power of Data Outsourcing
- Title(参考訳): ランダムスタートより良いことはできるのか?
データアウトソーシングの力は
- Authors: Yi Chen, Jing Dong, Xin T. Tong
- Abstract要約: 多くの組織は豊富なデータにアクセスできますが、データを処理するための計算能力がありません。
そこで本研究では,少量のアウトソースデータを用いて優れた初期点を求めるシミュレーションに基づくアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.677679780556103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many organizations have access to abundant data but lack the computational
power to process the data. While they can outsource the computational task to
other facilities, there are various constraints on the amount of data that can
be shared. It is natural to ask what can data outsourcing accomplish under such
constraints. We address this question from a machine learning perspective. When
training a model with optimization algorithms, the quality of the results often
relies heavily on the points where the algorithms are initialized. Random start
is one of the most popular methods to tackle this issue, but it can be
computationally expensive and not feasible for organizations lacking computing
resources. Based on three different scenarios, we propose simulation-based
algorithms that can utilize a small amount of outsourced data to find good
initial points accordingly. Under suitable regularity conditions, we provide
theoretical guarantees showing the algorithms can find good initial points with
high probability. We also conduct numerical experiments to demonstrate that our
algorithms perform significantly better than the random start approach.
- Abstract(参考訳): 多くの組織は豊富なデータにアクセスしているが、データの処理には計算能力がない。
彼らは計算タスクを他の施設にアウトソースできるが、共有できるデータの量には様々な制約がある。
このような制約の下でデータアウトソーシングが達成できることを問うのは当然です。
機械学習の観点からこの問題に対処する。
最適化アルゴリズムでモデルをトレーニングする場合、結果の品質はアルゴリズムが初期化される点に大きく依存することが多い。
ランダムスタートは、この問題に取り組むための最も一般的な方法の1つだが、計算コストが高く、計算リソースが不足している組織では実現不可能である。
3つの異なるシナリオに基づいて,少量のアウトソースデータを用いて適切な初期点を求めるシミュレーションに基づくアルゴリズムを提案する。
適切な正規性条件下では、アルゴリズムが高い確率で良い初期点を見つけることができることを示す理論的保証を提供する。
また,我々のアルゴリズムがランダムスタート法よりも著しく優れていることを示す数値実験を行った。
関連論文リスト
- The Limits of Assumption-free Tests for Algorithm Performance [6.7171902258864655]
与えられたモデリングタスクにおいてアルゴリズムはどの程度うまく機能し、どのアルゴリズムが最善を尽くすか?
一方、特定のトレーニングデータセットに対して$A$を実行して生成された特定の適合モデルが$n$であるのか?
論文 参考訳(メタデータ) (2024-02-12T03:19:30Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Leveraging Data Mining Algorithms to Recommend Source Code Changes [7.959841510571622]
本論文では、4つのデータマイニングアルゴリズムを用いてソースコード変更を推奨する自動手法を提案する。
性能(精度,リコール,F測定)と実行時間の比較を行った。
Aprioriは大規模プロジェクトに適しているように見えるが、Eclatは小規模プロジェクトに適しているようだ。
論文 参考訳(メタデータ) (2023-04-29T18:38:23Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Efficient and Accurate Learning of Mixtures of Plackett-Luce Models [5.216020588360421]
Plackett-Luce (PL) の混合モデルは理論的および実用的両方の研究領域である。
証明可能な精度で初期推定を行うアルゴリズムと、真のログ類似関数を効率的に最大化するEMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-10T16:00:40Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Optimization for Supervised Machine Learning: Randomized Algorithms for
Data and Parameters [10.279748604797911]
機械学習とデータサイエンスの主な問題は、最適化問題として日常的にモデル化され、最適化アルゴリズムによって解決される。
データ量の増加と、これらの不条件最適化タスクを定式化するために使用される統計モデルのサイズと複雑さにより、これらの課題に対処できる新しい効率的なアルゴリズムが必要である。
この論文では,これらの課題をそれぞれ異なる方法で処理する。ビッグデータ問題に効率的に対処するために,各イテレーションでトレーニングデータの小さなランダムサブセットのみを検査する新しい手法を開発する。
大きなモデル問題に対処するために、イテレーション毎に更新されるメソッドを開発します。
論文 参考訳(メタデータ) (2020-08-26T21:15:18Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - How to Solve Fair $k$-Center in Massive Data Models [5.3283669037198615]
我々は、$k$-center問題に対して、新しいストリーミングおよび分散アルゴリズムを設計する。
主な貢献は、(a)最初の分散アルゴリズム、(b)証明可能な近似保証付き2パスストリーミングアルゴリズムである。
論文 参考訳(メタデータ) (2020-02-18T16:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。