Fugu-MT 論文翻訳(概要): Enabling Reproducibility and Meta-learning Through a Lifelong Database of Experiments (LDE)

論文の概要: Enabling Reproducibility and Meta-learning Through a Lifelong Database of Experiments (LDE)

arxiv url: http://arxiv.org/abs/2202.10979v2
Date: Wed, 23 Feb 2022 18:26:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-24 14:28:56.079013
Title: Enabling Reproducibility and Meta-learning Through a Lifelong Database of Experiments (LDE)
Title（参考訳）: 生涯実験データベース(LDE)による再現性とメタ学習の実現
Authors: Jason Tsay, Andrea Bartezzaghi, Aleke Nolte, Cristiano Malossi
Abstract要約: 本稿では,実験成果物から関連メタデータを自動的に抽出し,保存するライフロング・データベース・オブ・エクスペリメント(LDE)を提案する。 AI開発ライフサイクルの複数のステージから、データセットやパイプライン、各設定方法、トレーニングはランタイム環境に関する情報とともに実行される。このメタデータに対して,1)パフォーマンス指標の変動性を調べること,2)データ上に複数のメタ学習アルゴリズムを実装すること,の2つの実験を行った。
参考スコア（独自算出の注目度）: 0.43012765978447565
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artificial Intelligence (AI) development is inherently iterative and experimental. Over the course of normal development, especially with the advent of automated AI, hundreds or thousands of experiments are generated and are often lost or never examined again. There is a lost opportunity to document these experiments and learn from them at scale, but the complexity of tracking and reproducing these experiments is often prohibitive to data scientists. We present the Lifelong Database of Experiments (LDE) that automatically extracts and stores linked metadata from experiment artifacts and provides features to reproduce these artifacts and perform meta-learning across them. We store context from multiple stages of the AI development lifecycle including datasets, pipelines, how each is configured, and training runs with information about their runtime environment. The standardized nature of the stored metadata allows for querying and aggregation, especially in terms of ranking artifacts by performance metrics. We exhibit the capabilities of the LDE by reproducing an existing meta-learning study and storing the reproduced metadata in our system. Then, we perform two experiments on this metadata: 1) examining the reproducibility and variability of the performance metrics and 2) implementing a number of meta-learning algorithms on top of the data and examining how variability in experimental results impacts recommendation performance. The experimental results suggest significant variation in performance, especially depending on dataset configurations; this variation carries over when meta-learning is built on top of the results, with performance improving when using aggregated results. This suggests that a system that automatically collects and aggregates results such as the LDE not only assists in implementing meta-learning but may also improve its performance.
Abstract（参考訳）: 人工知能(AI)の開発は本質的に反復的で実験的である。通常の開発、特に自動化AIの出現に伴って、何百、何千もの実験が生成され、しばしば失われ、二度と検査されない。これらの実験を文書化して大規模に学習する機会は失われたが、これらの実験の追跡と再現の複雑さは、データサイエンティストにとってしばしば禁止される。実験成果物から関連メタデータを自動的に抽出し,保存し,これらの成果物を再現し,メタラーニングを行う機能を備えた実験データベース(LDE)を提案する。データセットやパイプライン、それぞれの構成方法、ランタイム環境に関する情報を備えたトレーニングなど、ai開発ライフサイクルの複数のステージからコンテキストを格納します。ストアされたメタデータの標準化された性質は、特にパフォーマンス指標によるアーティファクトのランク付けにおいて、クエリと集約を可能にします。我々は,既存のメタラーニング研究を再現し,再現されたメタデータをシステムに格納することで,LDEの能力を示す。そして、このメタデータについて2つの実験を行う。 1)性能指標の再現性と変動性の検討 2)データ上に多数のメタ学習アルゴリズムを実装し,実験結果の変動が推薦性能に与える影響を検討する。この変化は、結果の上にメタラーニングが構築されたときに続き、集約された結果を使用する場合のパフォーマンスが向上する。これは、ldeのような結果を自動的に収集し集約するシステムが、メタラーニングの実装を支援するだけでなく、パフォーマンスも向上することを示唆している。

関連論文リスト

Test-Time Meta-Adaptation with Self-Synthesis [0.0]
我々は,大規模言語モデルの自己適応を可能にするメタラーニングフレームワークであるMASSを紹介する。 MASSは、問題固有の合成トレーニングデータを生成し、下流のパフォーマンスに最適化された目標の自己更新を実行する。数学的推論の実験は、MASSが効率的なデータ効率の試験時間適応をもたらすインスタンスごとのカリキュラムを合成することを学ぶことを示している。
論文参考訳（メタデータ） (2026-03-03T21:16:18Z)
RICO: Two Realistic Benchmarks and an In-Depth Analysis for Incremental Learning in Object Detection [54.194199777900934]
インクリメンタルラーニング(IL)は、完全なリトレーニングなしで、プライバシ、効率、スケーラビリティを提供する新しいデータ上で、逐次モデルをトレーニングする。ドメイン RICO (D-RICO) は固定クラスセットでドメインシフトを特徴とし、拡張クラス RICO (EC-RICO) はILステップ毎に新しいドメインとクラスを統合する。実験の結果,全てのILメソッドは適応性や保持性に劣るものの,前回の少量のデータ再生は全メソッドを上回っていることがわかった。
論文参考訳（メタデータ） (2025-08-19T14:42:19Z)
From Data to Decision: Data-Centric Infrastructure for Reproducible ML in Collaborative eScience [1.136688282190268]
機械学習(ML)における再現性は依然として中心的な課題である現在のMLは、しばしば断片化され、非公式なデータ共有、アドホックスクリプト、ゆるく接続されたツールに依存している。本稿では,ライフサイクルを意識したアーティファクトのためのデータ中心フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-19T06:09:01Z)
A Dataset For Computational Reproducibility [2.147712260420443]
本稿では、幅広い分野の科学分野をカバーする計算実験のデータセットを紹介する。ソフトウェア依存関係、実行手順、正確な再現に必要な設定の詳細が組み込まれている。ツールの有効性を客観的に評価し比較するための標準化データセットを確立することで、普遍的なベンチマークを提供する。
論文参考訳（メタデータ） (2025-04-11T16:45:10Z)
Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search [25.108044778194536]
命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介した。木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。
論文参考訳（メタデータ） (2024-10-14T11:28:30Z)
Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-09-18T13:20:23Z)
Hacking Task Confounder in Meta-Learning [18.179340061914708]
本稿では,メタ学習コーサル表現(MetaCRL)を提案する。我々の研究は、ベンチマークデータセット上での最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2023-12-10T05:33:40Z)
D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文参考訳（メタデータ） (2023-12-09T11:37:07Z)
Robust Learning with Progressive Data Expansion Against Spurious Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-08T05:44:06Z)
The NCI Imaging Data Commons as a platform for reproducible research in computational pathology [0.0773931605896092]
再現性は、計算病理学(CompPath)における機械学習(ML)ベースのソリューション開発における大きな課題である NCI Imaging Data Commons (IDC)は、FAIR原則に従って120以上のがんイメージコレクションを提供し、クラウドMLサービスで使用するように設計されている。肺腫瘍組織を分類する代表的ML法を訓練し,異なるデータセットで評価する2つの実験を行った。
論文参考訳（メタデータ） (2023-03-16T14:32:50Z)
Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文参考訳（メタデータ） (2022-09-29T18:11:01Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文参考訳（メタデータ） (2022-01-06T09:20:59Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)
Shared Space Transfer Learning for analyzing multi-site fMRI data [83.41324371491774]
マルチボクセルパターン解析(MVPA)は、タスクベース機能磁気共鳴画像(fMRI)データから予測モデルを学習する。 MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。ほとんどのfMRIデータセットはノイズが多く、高次元で、収集するのに高価で、サンプルサイズも小さい。本稿では,新しい伝達学習手法として共有空間移動学習(SSTL)を提案する。
論文参考訳（メタデータ） (2020-10-24T08:50:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。