論文の概要: Divide and Predict: An Architecture for Input Space Partitioning and Enhanced Accuracy
- arxiv url: http://arxiv.org/abs/2603.08649v1
- Date: Mon, 09 Mar 2026 17:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.607589
- Title: Divide and Predict: An Architecture for Input Space Partitioning and Enhanced Accuracy
- Title(参考訳): 分割と予測:入力空間分割と精度向上のためのアーキテクチャ
- Authors: Fenix W. Huang, Henning S. Mortveit, Christian M. Reidys,
- Abstract要約: 著者らは,教師付き学習のための学習データにおける不均一性を定量化する本質的な尺度を開発した。
この尺度は、トレーニングポイントのペアの影響を要因とするランダム変数の分散である。
- 参考スコア(独自算出の注目度): 1.260114736627853
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this article the authors develop an intrinsic measure for quantifying heterogeneity in training data for supervised learning. This measure is the variance of a random variable which factors through the influences of pairs of training points. The variance is shown to capture data heterogeneity and can thus be used to assess if a sample is a mixture of distributions. The authors prove that the data itself contains key information that supports a partitioning into blocks. Several proof of concept studies are provided that quantify the connection between variance and heterogeneity for EMNIST image data and synthetic data. The authors establish that variance is maximal for equal mixes of distributions, and detail how variance-based data purification followed by conventional training over blocks can lead to significant increases in test accuracy.
- Abstract(参考訳): 本稿では,教師付き学習のための学習データにおける不均一性を定量化する本質的な尺度を提案する。
この尺度は、トレーニングポイントのペアの影響を要因とするランダム変数の分散である。
この分散はデータの不均一性を捉えるために示され、したがってサンプルが分布の混合であるかどうかを評価するのに使用できる。
著者らは、データ自体がブロック分割をサポートするキー情報を含んでいることを証明している。
EMNIST画像データと合成データの分散と不均一性の関係を定量化するいくつかの概念研究の証明が提供される。
筆者らは、分散が分散の等質な混合に対して最大であることを示すとともに、分散に基づくデータ浄化が従来のブロックのトレーニングに続くことによって、テスト精度が大幅に向上することを示した。
関連論文リスト
- A Random Matrix Theory Perspective on the Consistency of Diffusion Models [31.63433424187031]
データセットの異なるサブセットでトレーニングされた拡散モデルは、しばしば同じノイズシードを与えられたときに、著しく類似した出力を生成する。
我々は,学習したデノイザとサンプリングマップの期待値と分散値の有限形状を定量化するランダム行列理論(RMT)フレームワークを開発した。
我々は,UNet および DiT アーキテクチャの非記憶系における予測を検証した。
論文 参考訳(メタデータ) (2026-02-02T23:30:28Z) - Synthetic Tabular Data Validation: A Divergence-Based Approach [8.062368743143388]
分散は、データ分散間の相違を定量化する。
従来のアプローチでは、各特徴に対して独立して発散率を計算する。
本稿では,差分推定を用いて限界比較の限界を克服する手法を提案する。
論文 参考訳(メタデータ) (2024-05-13T15:07:52Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - On the Properties and Estimation of Pointwise Mutual Information Profiles [49.877314063833296]
ポイントワイド相互情報プロファイル(ポイントワイド相互情報プロファイル、英: pointwise mutual information profile)は、与えられた確率変数のペアに対するポイントワイド相互情報の分布である。
そこで我々は,モンテカルロ法を用いて分布を正確に推定できる新しい分布系 Bend と Mix Models を導入する。
論文 参考訳(メタデータ) (2023-10-16T10:02:24Z) - Semantic Equivariant Mixup [54.734054770032934]
Mixupは、トレーニング分布を拡張し、ニューラルネットワークを正規化する、確立されたデータ拡張テクニックである。
以前のミックスアップの変種はラベル関連の情報に過度に焦点をあてる傾向がある。
入力中のよりリッチな意味情報を保存するための意味的同変混合(sem)を提案する。
論文 参考訳(メタデータ) (2023-08-12T03:05:53Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Disentanglement Analysis with Partial Information Decomposition [31.56299813238937]
不整合表現は、異なる生成因子を個別にキャプチャする複数のランダム変数にデータをマッピングすることで、プロセスを逆転させることを目的としている。
現在の遠絡測定値は、各生成因子によって条件付けられた各変数の絶対偏差、分散、エントロピーなどの濃度を測定するように設計されている。
本研究では,2つ以上の変数間の情報共有を評価するために部分情報分解フレームワークを使用し,新しいアンタングル化指標を含むフレームワークを構築する。
論文 参考訳(メタデータ) (2021-08-31T11:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。