論文の概要: Automatic Machine Learning Derived from Scholarly Big Data
- arxiv url: http://arxiv.org/abs/2003.03470v1
- Date: Fri, 6 Mar 2020 23:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 00:53:40.746678
- Title: Automatic Machine Learning Derived from Scholarly Big Data
- Title(参考訳): 学術的ビッグデータから得られる自動機械学習
- Authors: Asnat Greenstein-Messica, Roman Vainshtein, Gilad Katz, Bracha
Shapira, Lior Rokach
- Abstract要約: Sommelierは、これまで見えないデータセットに適用すべき機械学習アルゴリズムを推奨するエキスパートシステムである。
121の公開データセットと53の分類アルゴリズムを広範囲に評価することにより、Sommelierの有効性を実証する。
各データセットに推奨される上位アルゴリズムは、調査対象のアルゴリズムの最適精度の97.7%で達成できた。
- 参考スコア(独自算出の注目度): 18.468816066200123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the challenging aspects of applying machine learning is the need to
identify the algorithms that will perform best for a given dataset. This
process can be difficult, time consuming and often requires a great deal of
domain knowledge. We present Sommelier, an expert system for recommending the
machine learning algorithms that should be applied on a previously unseen
dataset. Sommelier is based on word embedding representations of the domain
knowledge extracted from a large corpus of academic publications. When
presented with a new dataset and its problem description, Sommelier leverages a
recommendation model trained on the word embedding representation to provide a
ranked list of the most relevant algorithms to be used on the dataset. We
demonstrate Sommelier's effectiveness by conducting an extensive evaluation on
121 publicly available datasets and 53 classification algorithms. The top
algorithms recommended for each dataset by Sommelier were able to achieve on
average 97.7% of the optimal accuracy of all surveyed algorithms.
- Abstract(参考訳): 機械学習を適用する上で難しい側面のひとつは、与えられたデータセットに最適なアルゴリズムを特定する必要があることだ。
このプロセスは難しく、時間がかかり、多くの場合、多くのドメイン知識を必要とします。
本研究では,機械学習アルゴリズムを推奨するエキスパートシステムであるsommelierを提案する。
sommelierは、多くの学術出版物のコーパスから抽出されたドメイン知識の単語埋め込み表現に基づいている。
新しいデータセットとその問題記述を提示すると、sommelierは単語埋め込み表現でトレーニングされた推奨モデルを利用して、データセットで使用される最も関連するアルゴリズムのランク付けリストを提供する。
121の公開データセットと53の分類アルゴリズムについて広範な評価を行い,sommelierの有効性を実証した。
ソムリエが推奨する各データセットの上位アルゴリズムは、調査された全てのアルゴリズムの最適精度の97.7%で達成できた。
関連論文リスト
- A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment [76.04306818209753]
実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-10T16:00:41Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Semantic Segmentation with Active Semi-Supervised Representation
Learning [23.79742108127707]
我々はラベル付きデータよりもはるかに少ない効果的なセマンティックセグメンテーションアルゴリズムを訓練する。
半教師あり学習のための平均教師アプローチを自己学習アプローチに置き換えることで、従来のS4ALアルゴリズムを拡張した。
セマンティックセグメンテーションのためのアクティブラーニングのためのデファクト標準であるCamVidおよびCityScapesデータセットについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-10-16T00:21:43Z) - On the Generalizability and Predictability of Recommender Systems [33.46314108814183]
推奨システムアプローチに関する大規模な研究を初めて行った。
Reczillaは、レコメンデーションシステムのためのメタラーニングアプローチです。
論文 参考訳(メタデータ) (2022-06-23T17:51:42Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - GRAD-MATCH: A Gradient Matching Based Data Subset Selection for
Efficient Learning [23.75284126177203]
我々は、トレーニングや検証セットの勾配と密接に一致する部分集合を見つける汎用フレームワークgrad-matchを提案する。
GRAD-MATCHは、最近のデータ選択アルゴリズムよりも大きく、一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-27T04:09:32Z) - Automatic selection of clustering algorithms using supervised graph
embedding [14.853602181549967]
MARCO-GEはクラスタリングアルゴリズムの自動推奨のための新しいメタラーニング手法である。
ランキングメタモデルをトレーニングし、新しいデータセットとクラスタリング評価尺度の上位パフォーマンスアルゴリズムを正確に推奨する。
論文 参考訳(メタデータ) (2020-11-16T19:13:20Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Data-driven Algorithm for Scheduling with Total Tardiness [0.6606016007748989]
本稿では,古典的なNP-Hard単一マシンスケジューリング問題に対するディープラーニングの適用について検討する。
我々は、与えられたジョブセットの基準を学習し、予測するディープニューラルネットワークを含む回帰器を設計した。
データ駆動型アプローチは、トレーニングフェーズからかなり大きなインスタンスへの情報を効率的に一般化することができます。
論文 参考訳(メタデータ) (2020-05-12T07:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。