論文の概要: Enabling Reproducibility and Meta-learning Through a Lifelong Database
of Experiments (LDE)
- arxiv url: http://arxiv.org/abs/2202.10979v2
- Date: Wed, 23 Feb 2022 18:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 14:28:56.079013
- Title: Enabling Reproducibility and Meta-learning Through a Lifelong Database
of Experiments (LDE)
- Title(参考訳): 生涯実験データベース(LDE)による再現性とメタ学習の実現
- Authors: Jason Tsay, Andrea Bartezzaghi, Aleke Nolte, Cristiano Malossi
- Abstract要約: 本稿では,実験成果物から関連メタデータを自動的に抽出し,保存するライフロング・データベース・オブ・エクスペリメント(LDE)を提案する。
AI開発ライフサイクルの複数のステージから、データセットやパイプライン、各設定方法、トレーニングはランタイム環境に関する情報とともに実行される。
このメタデータに対して,1)パフォーマンス指標の変動性を調べること,2)データ上に複数のメタ学習アルゴリズムを実装すること,の2つの実験を行った。
- 参考スコア(独自算出の注目度): 0.43012765978447565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) development is inherently iterative and
experimental. Over the course of normal development, especially with the advent
of automated AI, hundreds or thousands of experiments are generated and are
often lost or never examined again. There is a lost opportunity to document
these experiments and learn from them at scale, but the complexity of tracking
and reproducing these experiments is often prohibitive to data scientists. We
present the Lifelong Database of Experiments (LDE) that automatically extracts
and stores linked metadata from experiment artifacts and provides features to
reproduce these artifacts and perform meta-learning across them. We store
context from multiple stages of the AI development lifecycle including
datasets, pipelines, how each is configured, and training runs with information
about their runtime environment. The standardized nature of the stored metadata
allows for querying and aggregation, especially in terms of ranking artifacts
by performance metrics. We exhibit the capabilities of the LDE by reproducing
an existing meta-learning study and storing the reproduced metadata in our
system. Then, we perform two experiments on this metadata: 1) examining the
reproducibility and variability of the performance metrics and 2) implementing
a number of meta-learning algorithms on top of the data and examining how
variability in experimental results impacts recommendation performance. The
experimental results suggest significant variation in performance, especially
depending on dataset configurations; this variation carries over when
meta-learning is built on top of the results, with performance improving when
using aggregated results. This suggests that a system that automatically
collects and aggregates results such as the LDE not only assists in
implementing meta-learning but may also improve its performance.
- Abstract(参考訳): 人工知能(AI)の開発は本質的に反復的で実験的である。
通常の開発、特に自動化AIの出現に伴って、何百、何千もの実験が生成され、しばしば失われ、二度と検査されない。
これらの実験を文書化して大規模に学習する機会は失われたが、これらの実験の追跡と再現の複雑さは、データサイエンティストにとってしばしば禁止される。
実験成果物から関連メタデータを自動的に抽出し,保存し,これらの成果物を再現し,メタラーニングを行う機能を備えた実験データベース(LDE)を提案する。
データセットやパイプライン、それぞれの構成方法、ランタイム環境に関する情報を備えたトレーニングなど、ai開発ライフサイクルの複数のステージからコンテキストを格納します。
ストアされたメタデータの標準化された性質は、特にパフォーマンス指標によるアーティファクトのランク付けにおいて、クエリと集約を可能にします。
我々は,既存のメタラーニング研究を再現し,再現されたメタデータをシステムに格納することで,LDEの能力を示す。
そして、このメタデータについて2つの実験を行う。
1)性能指標の再現性と変動性の検討
2)データ上に多数のメタ学習アルゴリズムを実装し,実験結果の変動が推薦性能に与える影響を検討する。
この変化は、結果の上にメタラーニングが構築されたときに続き、集約された結果を使用する場合のパフォーマンスが向上する。
これは、ldeのような結果を自動的に収集し集約するシステムが、メタラーニングの実装を支援するだけでなく、パフォーマンスも向上することを示唆している。
関連論文リスト
- Data Interpreter: An LLM Agent For Data Science [43.99482533437711]
Data Interpreterは、コードで解決するように設計されたソリューションである。
データサイエンスにおける問題解決を強化するための3つの重要なテクニックを強調している。
MATHデータセットは26%増加し、オープンなタスクは112%改善した。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Deep Learning of Crystalline Defects from TEM images: A Solution for the
Problem of "Never Enough Training Data" [0.0]
In-situ TEM実験は、転位がどのように振る舞うか、動きについて重要な洞察を与えることができる。
個々のビデオフレームの分析は有用な洞察を提供するが、自動識別の能力によって制限される。
本研究では,転位セグメンテーションのための合成トレーニングデータを生成するパラメトリックモデルを開発した。
論文 参考訳(メタデータ) (2023-07-12T17:37:46Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - The NCI Imaging Data Commons as a platform for reproducible research in
computational pathology [0.0773931605896092]
再現性は、計算病理学(CompPath)における機械学習(ML)ベースのソリューション開発における大きな課題である
NCI Imaging Data Commons (IDC)は、FAIR原則に従って120以上のがんイメージコレクションを提供し、クラウドMLサービスで使用するように設計されている。
肺腫瘍組織を分類する代表的ML法を訓練し,異なるデータセットで評価する2つの実験を行った。
論文 参考訳(メタデータ) (2023-03-16T14:32:50Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - FeatureEnVi: Visual Analytics for Feature Engineering Using Stepwise
Selection and Semi-Automatic Extraction Approaches [5.890700712095962]
我々は,機能工学的プロセスを支援するビジュアル分析システムであるfeatureenviを提案する。
提案システムは,ユーザが最も重要な機能を選択し,元の機能を強力な代替品に転換し,異なる機能生成の組み合わせを試すのに役立つ。
FeatureEnViの有用性と適用性は、人気のある赤ワインの品質データセットと、シルエットからの車両認識に関する公開データを用いて、2つのユースケースで実証される。
論文 参考訳(メタデータ) (2021-03-26T15:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。