論文の概要: Data Models for Dataset Drift Controls in Machine Learning With Optical
Images
- arxiv url: http://arxiv.org/abs/2211.02578v3
- Date: Sun, 7 May 2023 05:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:07:00.850781
- Title: Data Models for Dataset Drift Controls in Machine Learning With Optical
Images
- Title(参考訳): 光画像を用いた機械学習におけるデータセットドリフト制御のためのデータモデル
- Authors: Luis Oala, Marco Aversa, Gabriel Nobis, Kurt Willis, Yoan
Neuenschwander, Mich\`ele Buck, Christian Matek, Jerome Extermann, Enrico
Pomarico, Wojciech Samek, Roderick Murray-Smith, Christoph Clausen, Bruno
Sanguinetti
- Abstract要約: 主な障害モードは、トレーニングデータとデプロイメントデータの違いによるパフォーマンス低下である。
既存のアプローチでは、関心の対象であるデータ(データ)の明示的なモデルは説明できない。
本研究では、画像データに対してそのようなデータモデルを構築する方法を示し、データセットのドリフトに関連する下流機械学習モデルの性能を制御する。
- 参考スコア(独自算出の注目度): 8.818468649062932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera images are ubiquitous in machine learning research. They also play a
central role in the delivery of important services spanning medicine and
environmental surveying. However, the application of machine learning models in
these domains has been limited because of robustness concerns. A primary
failure mode are performance drops due to differences between the training and
deployment data. While there are methods to prospectively validate the
robustness of machine learning models to such dataset drifts, existing
approaches do not account for explicit models of the primary object of
interest: the data. This limits our ability to study and understand the
relationship between data generation and downstream machine learning model
performance in a physically accurate manner. In this study, we demonstrate how
to overcome this limitation by pairing traditional machine learning with
physical optics to obtain explicit and differentiable data models. We
demonstrate how such data models can be constructed for image data and used to
control downstream machine learning model performance related to dataset drift.
The findings are distilled into three applications. First, drift synthesis
enables the controlled generation of physically faithful drift test cases to
power model selection and targeted generalization. Second, the gradient
connection between machine learning task model and data model allows advanced,
precise tolerancing of task model sensitivity to changes in the data
generation. These drift forensics can be used to precisely specify the
acceptable data environments in which a task model may be run. Third, drift
optimization opens up the possibility to create drifts that can help the task
model learn better faster, effectively optimizing the data generating process
itself. A guide to access the open code and datasets is available at
https://github.com/aiaudit-org/raw2logit.
- Abstract(参考訳): カメラ画像は機械学習研究においてユビキタスである。
また、医療や環境調査にまたがる重要なサービスの提供においても中心的な役割を担っている。
しかし、これらの領域における機械学習モデルの適用は、堅牢性に関する懸念から制限されている。
主な障害モードは、トレーニングデータとデプロイメントデータの違いによるパフォーマンス低下である。
このようなデータセットドリフトに対する機械学習モデルのロバスト性を検証する方法は存在するが、既存のアプローチでは、関心のある主要な対象であるデータに対する明示的なモデルは考慮されていない。
これにより、データ生成と下流機械学習モデルのパフォーマンスを物理的に正確な方法で研究し、理解する能力が制限される。
本研究では、従来の機械学習と物理光学を組み合わせることで、明示的かつ微分可能なデータモデルを得ることにより、この制限を克服する方法を示す。
本研究では、画像データに対してそのようなデータモデルを構築する方法を示し、データセットのドリフトに関連する下流機械学習モデルの性能を制御する。
結果は3つの応用に抽出される。
まず、ドリフト合成により、物理的に忠実なドリフトテストケースが生成され、モデル選択とターゲットの一般化が可能となる。
次に、機械学習タスクモデルとデータモデル間の勾配接続により、データ生成の変化に対するタスクモデルの感度を高度かつ正確に許容することができる。
これらのドリフト法医学は、タスクモデルを実行することができる許容されるデータ環境を正確に特定するために使用することができる。
第三に、ドリフト最適化は、タスクモデルがより速く学習し、データ生成プロセス自体を効果的に最適化できるドリフトを作成する可能性を開く。
オープンコードとデータセットにアクセスするガイドは、https://github.com/aiaudit-org/raw2logitで入手できる。
関連論文リスト
- A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control [59.20038082523832]
我々は、自動走行アプリケーションの改善を継続的に行う方法で、生成データ生産を拡大することが証明された最初のモデルであるSubjectDriveを提案する。
本研究では, 多様なデータを生成するために, 多様な外部データソースを活用可能な, 主観制御機構を備えた新しいモデルを開発する。
論文 参考訳(メタデータ) (2024-03-28T14:07:13Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Quilt: Robust Data Segment Selection against Concept Drifts [30.62320149405819]
継続的機械学習パイプラインは、モデルが定期的にデータストリームでトレーニングされる産業環境で一般的である。
概念ドリフトは、データXとラベルy、P(X, y)の結合分布が時間とともに変化し、おそらくモデルの精度が低下するデータストリームで発生する。
既存のコンセプトドリフト適応アプローチは、主にモデルを新しいデータに更新することに集中し、ドリフトした履歴データを破棄する傾向がある。
モデル精度を最大化するデータセグメントを識別および選択するためのデータ中心フレームワークであるQultを提案する。
論文 参考訳(メタデータ) (2023-12-15T11:10:34Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On Inductive Biases for Machine Learning in Data Constrained Settings [0.0]
この論文は、データ制約された設定で表現力のあるモデルを学ぶという問題に対する異なる答えを探求する。
ニューラルネットワークを学ぶために、大きなデータセットに頼るのではなく、データ構造を反映した既知の関数によって、いくつかのモジュールを置き換えるつもりです。
我々のアプローチは「帰納的バイアス」のフードの下に置かれており、これは探索するモデルの空間を制限する手元にあるデータの仮説として定義することができる。
論文 参考訳(メタデータ) (2023-02-21T14:22:01Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - A Note on Data Biases in Generative Models [16.86600007830682]
生成モデルの性能に及ぼすデータセット品質の影響について検討する。
生成モデルによりデータセットの社会的バイアスがどのように再現されるかを示す。
本稿では,写真,油絵,アニメなどの多様なデータセット間の非ペア転送を通じて,クリエイティブな応用を提示する。
論文 参考訳(メタデータ) (2020-12-04T10:46:37Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。