論文の概要: Learning from data with structured missingness
- arxiv url: http://arxiv.org/abs/2304.01429v1
- Date: Tue, 4 Apr 2023 00:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 16:00:31.719685
- Title: Learning from data with structured missingness
- Title(参考訳): 構造的欠如を伴うデータからの学習
- Authors: Robin Mitra, Sarah F. McGough, Tapabrata Chakraborti, Chris Holmes,
Ryan Copping, Niels Hagenbuch, Stefanie Biedermann, Jack Noonan, Brieuc
Lehmann, Aditi Shenvi, Xuan Vinh Doan, David Leslie, Ginestra Bianconi, Ruben
Sanchez-Garcia, Alisha Davies, Maxine Mackintosh, Eleni-Rosalina
Andrinopoulou, Anahid Basiri, Chris Harbron, Ben D. MacArthur
- Abstract要約: 多くの機械学習タスクにおいて、データの欠落は避けられない複雑さである。
構造的欠如は、まだ体系的に解決されていない様々な課題を引き起こす。
構造的不足を伴うデータから学習する際の,一連の大きな課題を提案する。
- 参考スコア(独自算出の注目度): 0.5870864908881303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing data are an unavoidable complication in many machine learning tasks.
When data are `missing at random' there exist a range of tools and techniques
to deal with the issue. However, as machine learning studies become more
ambitious, and seek to learn from ever-larger volumes of heterogeneous data, an
increasingly encountered problem arises in which missing values exhibit an
association or structure, either explicitly or implicitly. Such `structured
missingness' raises a range of challenges that have not yet been systematically
addressed, and presents a fundamental hindrance to machine learning at scale.
Here, we outline the current literature and propose a set of grand challenges
in learning from data with structured missingness.
- Abstract(参考訳): データ不足は、多くの機械学習タスクにおいて避けられない複雑さである。
データが“ランダムに欠落している”場合には、その問題に対処するさまざまなツールやテクニックが存在する。
しかし、機械学習の研究がより野心的になり、さらに大きな異種データの量から学ぼうとすると、不足する値が明示的にも暗黙的にも関連や構造を示すという問題が発生する。
このような‘構造的欠如’は、まだ体系的に対処されていないさまざまな課題を引き起こし、大規模な機械学習に根本的な障害をもたらします。
本稿では,現在の文献を概説し,構造化された欠如のあるデータから学ぶ上での課題について概説する。
関連論文リスト
- The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning [80.1018596899899]
ニューラルネットワークモデルは、Kolmogorov複雑性を使って形式化された、同じ好みを共有している、と我々は主張する。
実験の結果、事前訓練された言語モデルでも、低複雑さのシーケンスを生成するのが好まれることがわかった。
これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。
論文 参考訳(メタデータ) (2023-04-11T17:22:22Z) - Learnware: Small Models Do Big [69.88234743773113]
自然言語処理やコンピュータビジョンの応用で目覚ましい成果を上げてきた、一般的なビッグモデルパラダイムは、これらの問題にまだ対応していないが、炭素排出量の深刻な源となっている。
この記事では、マシンラーニングモデルをスクラッチから構築する必要がないようにするための学習ソフトウェアパラダイムの概要を紹介します。
論文 参考訳(メタデータ) (2022-10-07T15:55:52Z) - Multiple Instance Learning for Detecting Anomalies over Sequential
Real-World Datasets [2.427831679672374]
MIL(Multiple Instance Learning)は、トレーニングデータセットにおけるラベルの不完全な知識に関する問題に対して有効であることが示されている。
MILに基づく定式化と,異なる設計決定に基づいて,このフレームワークの様々なアルゴリズムのインスタンス化を提案する。
このフレームワークは、さまざまな現実世界のアプリケーションドメインから生じる多様なデータセットをうまく一般化する。
論文 参考訳(メタデータ) (2022-10-04T16:02:09Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Deeply-Learned Generalized Linear Models with Missing Data [6.302686933168439]
我々は、深く学習された一般化線形モデルの文脈において、欠測データの形式的処理を行う。
我々は、無視できないパターンと無視できないパターンの両方を柔軟に説明できる新しいアーキテクチャ、textitdlglmを提案する。
UCI Machine Learning Repositoryのバンクマーケティングデータセットのケーススタディで締めくくった。
論文 参考訳(メタデータ) (2022-07-18T20:00:13Z) - Learning from Few Examples: A Summary of Approaches to Few-Shot Learning [3.6930948691311016]
Few-Shot Learningは、いくつかのトレーニングサンプルからデータの基本パターンを学習する問題を指す。
ディープラーニングソリューションは、データ飢餓と、膨大な計算時間とリソースに悩まされている。
機械学習アプリケーション構築のターンアラウンド時間を劇的に短縮できるようなショットラーニングは、低コストのソリューションとして現れます。
論文 参考訳(メタデータ) (2022-03-07T23:15:21Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Few-shot Partial Multi-view Learning [103.33865779721458]
本稿では,複数ショット部分的多視点学習という新しい課題を提案する。
それは、低データ体制におけるビューミス問題によるネガティブな影響を克服することに焦点を当てている。
提案手法を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-05-05T13:34:43Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z) - Complex Sequential Data Analysis: A Systematic Literature Review of
Existing Algorithms [0.9649642656207869]
本稿では、不規則なパターンを持つデータセットの分析にディープラーニングフレームワークを使うことに対する過去のアプローチについてレビューする。
従来のディープラーニング手法は、これらのデータセットを解析しようとすると、パフォーマンスが悪く、あるいは失敗する。
ディープラーニングフレームワークの性能は,平均絶対誤差とルート平均二乗誤差精度の指標を用いて評価された。
論文 参考訳(メタデータ) (2020-07-22T17:53:00Z) - Unique properties of adversarially trained linear classifiers on
Gaussian data [13.37805637358556]
対人学習研究コミュニティは 対人摂動の根本原因を理解するために 顕著な進歩を遂げています
現実のデータセットに洞察が移ることを期待して、単純な問題に対する逆向きに頑健な学習理論を開発することが一般的である。
特に線形分類器を用いて、任意のレベルの逆汚職の下でガウスデータの二項分類問題を解くことは常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-06T14:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。