論文の概要: Utilizing Domain Knowledge: Robust Machine Learning for Building Energy
Prediction with Small, Inconsistent Datasets
- arxiv url: http://arxiv.org/abs/2302.10784v1
- Date: Mon, 23 Jan 2023 08:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 13:57:50.573343
- Title: Utilizing Domain Knowledge: Robust Machine Learning for Building Energy
Prediction with Small, Inconsistent Datasets
- Title(参考訳): ドメイン知識を活用する - 小さく一貫性のないデータセットによるエネルギー予測構築のためのロバスト機械学習
- Authors: Xia Chen, Manav Mahan Sing, Philipp Geyer
- Abstract要約: 機械学習(ML)アプリケーションに対する膨大なデータ需要は、現在ボトルネックとなっている。
本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。
知識符号化データ駆動手法としてCBMLをエネルギー効率の高い建築工学の文脈で検討する。
- 参考スコア(独自算出の注目度): 1.1081836812143175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The demand for a huge amount of data for machine learning (ML) applications
is currently a bottleneck in an empirically dominated field. We propose a
method to combine prior knowledge with data-driven methods to significantly
reduce their data dependency. In this study, component-based machine learning
(CBML) as the knowledge-encoded data-driven method is examined in the context
of energy-efficient building engineering. It encodes the abstraction of
building structural knowledge as semantic information in the model
organization. We design a case experiment to understand the efficacy of
knowledge-encoded ML in sparse data input (1% - 0.0125% sampling rate). The
result reveals its three advanced features compared with pure ML methods: 1.
Significant improvement in the robustness of ML to extremely small-size and
inconsistent datasets; 2. Efficient data utilization from different entities'
record collections; 3. Characteristics of accepting incomplete data with high
interpretability and reduced training time. All these features provide a
promising path to alleviating the deployment bottleneck of data-intensive
methods and contribute to efficient real-world data usage. Moreover, four
necessary prerequisites are summarized in this study that ensures the target
scenario benefits by combining prior knowledge and ML generalization.
- Abstract(参考訳): 機械学習(ml)アプリケーションのための膨大なデータ要求は、現在経験的に支配的な分野でボトルネックとなっている。
本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。
本研究では,知識符号化データ駆動手法としてのコンポーネントベース機械学習(CBML)について,エネルギー効率の高い建築工学の文脈で検討した。
モデル組織における構造的知識構築の抽象化を意味的情報としてエンコードする。
本研究では,スパースデータ入力における知識符号化MLの有効性(1%から0.0125%)を理解するための事例実験を設計する。
その結果、純粋なMLメソッドと比較して、3つの高度な機能を明らかにした。
1 MLの極端に小型で一貫性のないデータセットに対する堅牢性の顕著な改善
2. 異なるエンティティのレコードコレクションからの効率的なデータ利用
3. 高い解釈性と訓練時間の短縮による不完全データの受け入れ特性
これらの機能はすべて、データ集約型メソッドのデプロイメントボトルネックを緩和し、効率的な実世界のデータ利用に貢献する、有望なパスを提供します。
さらに,本研究では,事前知識とml一般化を組み合わせることで,目標シナリオのメリットを確保するために必要な4つの前提条件をまとめる。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文 参考訳(メタデータ) (2024-06-27T04:42:29Z) - Informed Meta-Learning [55.2480439325792]
メタラーニングとインシデントMLは、事前知識をMLパイプラインに組み込むための2つのアプローチとして際立っている。
我々は,非構造化知識表現からの事前の取り込みを容易にする,情報メタラーニングというハイブリッドパラダイムを定式化する。
データ効率、観測ノイズに対する堅牢性、タスク分散シフトを改善する上で、情報メタラーニングの潜在的な利点を実証する。
論文 参考訳(メタデータ) (2024-02-25T15:08:37Z) - Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文 参考訳(メタデータ) (2024-01-24T20:30:52Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - Injective Domain Knowledge in Neural Networks for Transprecision
Computing [17.300144121921882]
本稿では,非自明な学習課題を扱う際に,事前知識を統合することで得られる改善について検討する。
その結果,問題固有情報を利用したMLモデルは純粋にデータ駆動のモデルよりも優れており,平均精度は約38%向上していることがわかった。
論文 参考訳(メタデータ) (2020-02-24T12:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。