論文の概要: A Recommender System for Scientific Datasets and Analysis Pipelines
- arxiv url: http://arxiv.org/abs/2108.09275v1
- Date: Fri, 20 Aug 2021 17:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 14:55:40.455773
- Title: A Recommender System for Scientific Datasets and Analysis Pipelines
- Title(参考訳): 科学データセットと分析パイプラインのためのレコメンダシステム
- Authors: Mandana Mazaheri, Gregory Kiar, Tristan Glatard
- Abstract要約: 高品質な公開データセットとパイプラインの増加を考えると、明確な互換性の欠如は、これらのリソースの発見可能性と再利用性を脅かしている。
本研究では,前回の実行実績に基づくパイプラインやデータセットを推薦するための協調フィルタリングシステムの実現可能性について検討する。
我々は、証明に基づくパイプラインとデータセットレコメンデータは、オープンサイエンスリソースの共有と利用に有効であり、有益である、と結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific datasets and analysis pipelines are increasingly being shared
publicly in the interest of open science. However, mechanisms are lacking to
reliably identify which pipelines and datasets can appropriately be used
together. Given the increasing number of high-quality public datasets and
pipelines, this lack of clear compatibility threatens the findability and
reusability of these resources. We investigate the feasibility of a
collaborative filtering system to recommend pipelines and datasets based on
provenance records from previous executions. We evaluate our system using
datasets and pipelines extracted from the Canadian Open Neuroscience Platform,
a national initiative for open neuroscience. The recommendations provided by
our system (AUC$=0.83$) are significantly better than chance and outperform
recommendations made by domain experts using their previous knowledge as well
as pipeline and dataset descriptions (AUC$=0.63$). In particular, domain
experts often neglect low-level technical aspects of a pipeline-dataset
interaction, such as the level of pre-processing, which are captured by a
provenance-based system. We conclude that provenance-based pipeline and dataset
recommenders are feasible and beneficial to the sharing and usage of
open-science resources. Future work will focus on the collection of more
comprehensive provenance traces, and on deploying the system in production.
- Abstract(参考訳): 科学データセットと分析パイプラインは、オープンサイエンスの利益のために公開されつつある。
しかしながら、どのパイプラインとデータセットを適切に使用できるかを確実に識別するメカニズムが欠けている。
高品質な公開データセットやパイプラインの増加を考えると、明確な互換性の欠如は、これらのリソースの発見性と再利用性を脅かしている。
本研究では,前回の実行実績に基づくパイプラインやデータセットを推薦するための協調フィルタリングシステムの実現可能性について検討する。
我々は、オープンニューロサイエンスの全国的イニシアチブであるcanadian open neuroscience platformから抽出されたデータセットとパイプラインを用いてシステムを評価する。
システムが提供する勧告(auc$=0.83$)は、以前の知識やパイプラインやデータセットの記述(auc$=0.63$)を使用するドメインの専門家による推奨よりもはるかに優れている。
特にドメインの専門家は、前処理のレベルなど、パイプラインとデータセットのインタラクションの低レベルな技術的側面を無視することが多い。
証明に基づくパイプラインとデータセットレコメンデータは、オープンサイエンスリソースの共有と利用に有効であり、有益である、と結論付けている。
今後の作業は、より包括的な実績トレースの収集と、本番環境にシステムを展開することに集中する。
関連論文リスト
- Enabling Advanced Land Cover Analytics: An Integrated Data Extraction Pipeline for Predictive Modeling with the Dynamic World Dataset [1.3757956340051605]
Dynamic Worldデータセットを扱うために、フレキシブルで効率的なエンドツーエンドパイプラインを提示します。
これには、ノイズ除去に取り組む前処理および表現フレームワーク、大量のデータの効率的な抽出、LULCデータの再表現が含まれる。
パイプラインのパワーを実証するために、都市化予測問題のためのデータを抽出し、優れたパフォーマンスで機械学習モデルのスイートを構築する。
論文 参考訳(メタデータ) (2024-10-11T16:13:01Z) - Linear-Time Graph Neural Networks for Scalable Recommendations [50.45612795600707]
推薦システムの鍵は、過去のユーザとイテムのインタラクションに基づいて、ユーザの将来の振る舞いを予測することである。
近年、リコメンデータシステムの予測性能を高めるためにグラフニューラルネットワーク(GNN)を活用することへの関心が高まっている。
我々は,従来のMF手法と同等のスケーラビリティを実現するために,GNNベースのレコメンデータシステムをスケールアップするための線形時間グラフニューラルネットワーク(LTGNN)を提案する。
論文 参考訳(メタデータ) (2024-02-21T17:58:10Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - Desbordante: from benchmarking suite to high-performance
science-intensive data profiler (preprint) [36.537985747809245]
Desbordanteは、オープンソースのコードを持つ高性能な科学集約型データプロファイラである。
類似のシステムとは異なり、マルチユーザ環境での産業的応用に重点を置いて構築されている。
効率的で、クラッシュに対して回復力があり、スケーラブルです。
論文 参考訳(メタデータ) (2023-01-14T19:14:51Z) - Scalable Neural Data Server: A Data Recommender for Transfer Learning [70.06289658553675]
転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。
Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。
NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。
SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
論文 参考訳(メタデータ) (2022-06-19T12:07:32Z) - Broad Recommender System: An Efficient Nonlinear Collaborative Filtering
Approach [56.12815715932561]
我々はBroad Collaborative Filtering (BroadCF)と呼ばれる新しい広帯域リコメンデータシステムを提案する。
深層ニューラルネットワーク(DNN)の代わりに、ユーザとアイテム間の複雑な非線形関係を学習するためのマッピング機能として、Broad Learning System(BLS)が使用されている。
7つのベンチマークデータセットで実施された大規模な実験により、提案したBroadCFアルゴリズムの有効性が確認された。
論文 参考訳(メタデータ) (2022-04-20T01:25:08Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - INODE: Building an End-to-End Data Exploration System in Practice
[Extended Vision] [30.411996388471817]
INODEはエンドツーエンドのデータ探索システムです。
私達は癌のバイオマーカーのReearch、研究および革新の方針の作成および天体物理学の分野の3つの重要な使用例でそれを実証します。
論文 参考訳(メタデータ) (2021-04-09T05:04:04Z) - Better Call the Plumber: Orchestrating Dynamic Information Extraction
Pipelines [1.7688094977719888]
plumberは、研究コミュニティの無関係なieの取り組みをまとめる最初のフレームワークである。
入力文に基づく最適パイプライン選択の最適化問題について検討する。
本研究は,KG情報抽出パイプラインの動的生成におけるPlumberの有効性を示す。
論文 参考訳(メタデータ) (2021-02-22T13:14:02Z) - Predictive Analytics for Water Asset Management: Machine Learning and
Survival Analysis [55.41644538483948]
本研究では,水管故障の予測のための統計的および機械学習の枠組みについて検討する。
スペイン,バルセロナの配水ネットワーク内の全管の故障記録を含むデータセットを用いて検討を行った。
その結果, 管形状, 年齢, 材質, 土壌被覆など, 重要な危険因子の影響が明らかにされた。
論文 参考訳(メタデータ) (2020-07-02T19:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。