Fugu-MT 論文翻訳(概要): Utilizing Domain Knowledge: Robust Machine Learning for Building Energy Prediction with Small, Inconsistent Datasets

論文の概要: Utilizing Domain Knowledge: Robust Machine Learning for Building Energy Prediction with Small, Inconsistent Datasets

arxiv url: http://arxiv.org/abs/2302.10784v1
Date: Mon, 23 Jan 2023 08:56:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-26 13:57:50.573343
Title: Utilizing Domain Knowledge: Robust Machine Learning for Building Energy Prediction with Small, Inconsistent Datasets
Title（参考訳）: ドメイン知識を活用する - 小さく一貫性のないデータセットによるエネルギー予測構築のためのロバスト機械学習
Authors: Xia Chen, Manav Mahan Sing, Philipp Geyer
Abstract要約: 機械学習(ML)アプリケーションに対する膨大なデータ需要は、現在ボトルネックとなっている。本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。知識符号化データ駆動手法としてCBMLをエネルギー効率の高い建築工学の文脈で検討する。
参考スコア（独自算出の注目度）: 1.1081836812143175
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The demand for a huge amount of data for machine learning (ML) applications is currently a bottleneck in an empirically dominated field. We propose a method to combine prior knowledge with data-driven methods to significantly reduce their data dependency. In this study, component-based machine learning (CBML) as the knowledge-encoded data-driven method is examined in the context of energy-efficient building engineering. It encodes the abstraction of building structural knowledge as semantic information in the model organization. We design a case experiment to understand the efficacy of knowledge-encoded ML in sparse data input (1% - 0.0125% sampling rate). The result reveals its three advanced features compared with pure ML methods: 1. Significant improvement in the robustness of ML to extremely small-size and inconsistent datasets; 2. Efficient data utilization from different entities' record collections; 3. Characteristics of accepting incomplete data with high interpretability and reduced training time. All these features provide a promising path to alleviating the deployment bottleneck of data-intensive methods and contribute to efficient real-world data usage. Moreover, four necessary prerequisites are summarized in this study that ensures the target scenario benefits by combining prior knowledge and ML generalization.
Abstract（参考訳）: 機械学習(ml)アプリケーションのための膨大なデータ要求は、現在経験的に支配的な分野でボトルネックとなっている。本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。本研究では,知識符号化データ駆動手法としてのコンポーネントベース機械学習(CBML)について,エネルギー効率の高い建築工学の文脈で検討した。モデル組織における構造的知識構築の抽象化を意味的情報としてエンコードする。本研究では,スパースデータ入力における知識符号化MLの有効性(1%から0.0125%)を理解するための事例実験を設計する。その結果、純粋なMLメソッドと比較して、3つの高度な機能を明らかにした。 1 MLの極端に小型で一貫性のないデータセットに対する堅牢性の顕著な改善 2. 異なるエンティティのレコードコレクションからの効率的なデータ利用 3. 高い解釈性と訓練時間の短縮による不完全データの受け入れ特性これらの機能はすべて、データ集約型メソッドのデプロイメントボトルネックを緩和し、効率的な実世界のデータ利用に貢献する、有望なパスを提供します。さらに,本研究では,事前知識とml一般化を組み合わせることで,目標シナリオのメリットを確保するために必要な4つの前提条件をまとめる。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Does Prompt Design Impact Quality of Data Imputation by LLMs? [0.0]
本稿では,大規模言語モデルの文脈内学習機能を活用したトークン認識型データ計算手法を提案する。 2つのクラス不均衡なバイナリ分類データセットを用いてこのアプローチを検証し、計算の有効性を評価する。
論文参考訳（メタデータ） (2025-06-04T17:15:19Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
Going Beyond Feature Similarity: Effective Dataset distillation based on Class-aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文参考訳（メタデータ） (2024-12-13T08:10:47Z)
KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文参考訳（メタデータ） (2024-11-22T08:21:03Z)
Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文参考訳（メタデータ） (2024-06-27T04:42:29Z)
Informed Meta-Learning [55.2480439325792]
メタラーニングとインシデントMLは、事前知識をMLパイプラインに組み込むための2つのアプローチとして際立っている。我々は,非構造化知識表現からの事前の取り込みを容易にする,情報メタラーニングというハイブリッドパラダイムを定式化する。データ効率、観測ノイズに対する堅牢性、タスク分散シフトを改善する上で、情報メタラーニングの潜在的な利点を実証する。
論文参考訳（メタデータ） (2024-02-25T15:08:37Z)
Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文参考訳（メタデータ） (2024-01-24T20:30:52Z)
Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。 FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文参考訳（メタデータ） (2023-02-01T18:59:36Z)
Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文参考訳（メタデータ） (2022-05-02T16:09:17Z)
Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文参考訳（メタデータ） (2021-10-24T22:33:52Z)
A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文参考訳（メタデータ） (2020-08-10T06:07:52Z)
Injective Domain Knowledge in Neural Networks for Transprecision Computing [17.300144121921882]
本稿では,非自明な学習課題を扱う際に,事前知識を統合することで得られる改善について検討する。その結果,問題固有情報を利用したMLモデルは純粋にデータ駆動のモデルよりも優れており,平均精度は約38%向上していることがわかった。
論文参考訳（メタデータ） (2020-02-24T12:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。