論文の概要: Utilizing Domain Knowledge: Robust Machine Learning for Building Energy
Prediction with Small, Inconsistent Datasets
- arxiv url: http://arxiv.org/abs/2302.10784v1
- Date: Mon, 23 Jan 2023 08:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 13:57:50.573343
- Title: Utilizing Domain Knowledge: Robust Machine Learning for Building Energy
Prediction with Small, Inconsistent Datasets
- Title(参考訳): ドメイン知識を活用する - 小さく一貫性のないデータセットによるエネルギー予測構築のためのロバスト機械学習
- Authors: Xia Chen, Manav Mahan Sing, Philipp Geyer
- Abstract要約: 機械学習(ML)アプリケーションに対する膨大なデータ需要は、現在ボトルネックとなっている。
本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。
知識符号化データ駆動手法としてCBMLをエネルギー効率の高い建築工学の文脈で検討する。
- 参考スコア(独自算出の注目度): 1.1081836812143175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The demand for a huge amount of data for machine learning (ML) applications
is currently a bottleneck in an empirically dominated field. We propose a
method to combine prior knowledge with data-driven methods to significantly
reduce their data dependency. In this study, component-based machine learning
(CBML) as the knowledge-encoded data-driven method is examined in the context
of energy-efficient building engineering. It encodes the abstraction of
building structural knowledge as semantic information in the model
organization. We design a case experiment to understand the efficacy of
knowledge-encoded ML in sparse data input (1% - 0.0125% sampling rate). The
result reveals its three advanced features compared with pure ML methods: 1.
Significant improvement in the robustness of ML to extremely small-size and
inconsistent datasets; 2. Efficient data utilization from different entities'
record collections; 3. Characteristics of accepting incomplete data with high
interpretability and reduced training time. All these features provide a
promising path to alleviating the deployment bottleneck of data-intensive
methods and contribute to efficient real-world data usage. Moreover, four
necessary prerequisites are summarized in this study that ensures the target
scenario benefits by combining prior knowledge and ML generalization.
- Abstract(参考訳): 機械学習(ml)アプリケーションのための膨大なデータ要求は、現在経験的に支配的な分野でボトルネックとなっている。
本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。
本研究では,知識符号化データ駆動手法としてのコンポーネントベース機械学習(CBML)について,エネルギー効率の高い建築工学の文脈で検討した。
モデル組織における構造的知識構築の抽象化を意味的情報としてエンコードする。
本研究では,スパースデータ入力における知識符号化MLの有効性(1%から0.0125%)を理解するための事例実験を設計する。
その結果、純粋なMLメソッドと比較して、3つの高度な機能を明らかにした。
1 MLの極端に小型で一貫性のないデータセットに対する堅牢性の顕著な改善
2. 異なるエンティティのレコードコレクションからの効率的なデータ利用
3. 高い解釈性と訓練時間の短縮による不完全データの受け入れ特性
これらの機能はすべて、データ集約型メソッドのデプロイメントボトルネックを緩和し、効率的な実世界のデータ利用に貢献する、有望なパスを提供します。
さらに,本研究では,事前知識とml一般化を組み合わせることで,目標シナリオのメリットを確保するために必要な4つの前提条件をまとめる。
関連論文リスト
- Informed Meta-Learning [65.268245109828]
メタラーニングとインシデントMLは、事前知識をMLパイプラインに組み込むための2つのアプローチとして際立っている。
本稿では,タスク間の知識共有の相補性を求める,メタラーニングのための新しいハイブリッドパラダイムを提案する。
観測騒音に対するデータ効率とロバスト性を改善する上で,情報メタラーニングの潜在的な利点を実証する。
論文 参考訳(メタデータ) (2024-02-25T15:08:37Z) - Don't Push the Button! Exploring Data Leakage Risks in Machine Learning
and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文 参考訳(メタデータ) (2024-01-24T20:30:52Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - On Taking Advantage of Opportunistic Meta-knowledge to Reduce
Configuration Spaces for Automated Machine Learning [11.670797168818773]
主要な研究課題は、パフォーマンスの悪いMLパイプラインのコスト評価を事前に回避できるかどうかである。
AutoWeka4MCPSパッケージによる多くの実験は、オポチュニティ/システムメタ知識がMLの結果を改善することを示唆している。
我々は、データセットの「チャレンジ」に対する強い感度、すなわち、予測子の選択における特異性によってパフォーマンスが著しく向上するかどうかを観察する。
論文 参考訳(メタデータ) (2022-08-08T19:22:24Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Training Data Augmentation for Deep Learning Radio Frequency Systems [1.1199585259018459]
この研究は、トレーニング中に使用されるデータに焦点を当てている。
一般に、検査されたデータ型はそれぞれ、最終アプリケーションに有用なコントリビューションを持っている。
キャプチャーデータの利点にもかかわらず、ライブコレクションから生じる困難さとコストは、ピークパフォーマンスを達成するのに必要なデータ量を非現実的にすることが多い。
論文 参考訳(メタデータ) (2020-10-01T02:26:16Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - Injective Domain Knowledge in Neural Networks for Transprecision
Computing [17.300144121921882]
本稿では,非自明な学習課題を扱う際に,事前知識を統合することで得られる改善について検討する。
その結果,問題固有情報を利用したMLモデルは純粋にデータ駆動のモデルよりも優れており,平均精度は約38%向上していることがわかった。
論文 参考訳(メタデータ) (2020-02-24T12:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。