論文の概要: Enabling Reproducibility and Meta-learning Through a Lifelong Database
of Experiments (LDE)
- arxiv url: http://arxiv.org/abs/2202.10979v1
- Date: Tue, 22 Feb 2022 15:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 14:58:49.488098
- Title: Enabling Reproducibility and Meta-learning Through a Lifelong Database
of Experiments (LDE)
- Title(参考訳): 生涯実験データベース(LDE)による再現性とメタ学習の実現
- Authors: Jason Tsay, Andrea Bartezzaghi, Aleke Nolte, Cristiano Malossi
- Abstract要約: 本稿では,実験成果物から関連メタデータを自動的に抽出し,保存するライフロング・データベース・オブ・エクスペリメント(LDE)を提案する。
AI開発ライフサイクルの複数のステージから、データセットやパイプライン、各設定方法、トレーニングはランタイム環境に関する情報とともに実行される。
このメタデータに対して,1)パフォーマンス指標の変動性を調べること,2)データ上に複数のメタ学習アルゴリズムを実装すること,の2つの実験を行った。
- 参考スコア(独自算出の注目度): 0.43012765978447565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) development is inherently iterative and
experimental. Over the course of normal development, especially with the advent
of automated AI, hundreds or thousands of experiments are generated and are
often lost or never examined again. There is a lost opportunity to document
these experiments and learn from them at scale, but the complexity of tracking
and reproducing these experiments is often prohibitive to data scientists. We
present the Lifelong Database of Experiments (LDE) that automatically extracts
and stores linked metadata from experiment artifacts and provides features to
reproduce these artifacts and perform meta-learning across them. We store
context from multiple stages of the AI development lifecycle including
datasets, pipelines, how each is configured, and training runs with information
about their runtime environment. The standardized nature of the stored metadata
allows for querying and aggregation, especially in terms of ranking artifacts
by performance metrics. We exhibit the capabilities of the LDE by reproducing
an existing meta-learning study and storing the reproduced metadata in our
system. Then, we perform two experiments on this metadata: 1) examining the
reproducibility and variability of the performance metrics and 2) implementing
a number of meta-learning algorithms on top of the data and examining how
variability in experimental results impacts recommendation performance. The
experimental results suggest significant variation in performance, especially
depending on dataset configurations; this variation carries over when
meta-learning is built on top of the results, with performance improving when
using aggregated results. This suggests that a system that automatically
collects and aggregates results such as the LDE not only assists in
implementing meta-learning but may also improve its performance.
- Abstract(参考訳): 人工知能(AI)の開発は本質的に反復的で実験的である。
通常の開発、特に自動化AIの出現に伴って、何百、何千もの実験が生成され、しばしば失われ、二度と検査されない。
これらの実験を文書化して大規模に学習する機会は失われたが、これらの実験の追跡と再現の複雑さは、データサイエンティストにとってしばしば禁止される。
実験成果物から関連メタデータを自動的に抽出し,保存し,これらの成果物を再現し,メタラーニングを行う機能を備えた実験データベース(LDE)を提案する。
データセットやパイプライン、それぞれの構成方法、ランタイム環境に関する情報を備えたトレーニングなど、ai開発ライフサイクルの複数のステージからコンテキストを格納します。
ストアされたメタデータの標準化された性質は、特にパフォーマンス指標によるアーティファクトのランク付けにおいて、クエリと集約を可能にします。
我々は,既存のメタラーニング研究を再現し,再現されたメタデータをシステムに格納することで,LDEの能力を示す。
そして、このメタデータについて2つの実験を行う。
1)性能指標の再現性と変動性の検討
2)データ上に多数のメタ学習アルゴリズムを実装し,実験結果の変動が推薦性能に与える影響を検討する。
この変化は、結果の上にメタラーニングが構築されたときに続き、集約された結果を使用する場合のパフォーマンスが向上する。
これは、ldeのような結果を自動的に収集し集約するシステムが、メタラーニングの実装を支援するだけでなく、パフォーマンスも向上することを示唆している。
関連論文リスト
- Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search [25.108044778194536]
命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介した。
木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。
実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。
論文 参考訳(メタデータ) (2024-10-14T11:28:30Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - Hacking Task Confounder in Meta-Learning [18.179340061914708]
本稿では,メタ学習コーサル表現(MetaCRL)を提案する。
我々の研究は、ベンチマークデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2023-12-10T05:33:40Z) - D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - The NCI Imaging Data Commons as a platform for reproducible research in
computational pathology [0.0773931605896092]
再現性は、計算病理学(CompPath)における機械学習(ML)ベースのソリューション開発における大きな課題である
NCI Imaging Data Commons (IDC)は、FAIR原則に従って120以上のがんイメージコレクションを提供し、クラウドMLサービスで使用するように設計されている。
肺腫瘍組織を分類する代表的ML法を訓練し,異なるデータセットで評価する2つの実験を行った。
論文 参考訳(メタデータ) (2023-03-16T14:32:50Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Shared Space Transfer Learning for analyzing multi-site fMRI data [83.41324371491774]
マルチボクセルパターン解析(MVPA)は、タスクベース機能磁気共鳴画像(fMRI)データから予測モデルを学習する。
MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。
ほとんどのfMRIデータセットはノイズが多く、高次元で、収集するのに高価で、サンプルサイズも小さい。
本稿では,新しい伝達学習手法として共有空間移動学習(SSTL)を提案する。
論文 参考訳(メタデータ) (2020-10-24T08:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。