論文の概要: Exploring Scale-Measures of Data Sets
- arxiv url: http://arxiv.org/abs/2102.02576v1
- Date: Thu, 4 Feb 2021 12:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:39:41.608717
- Title: Exploring Scale-Measures of Data Sets
- Title(参考訳): データセットのスケール測定の探索
- Authors: Tom Hanika and Johannes Hirth
- Abstract要約: データのスケーリングに関する深い理論は、形式的な概念分析の分野で開発されたスケール測定である。
最近の研究は、与えられたデータセットに対するすべての尺度の集合が格子を構成することを示している。
本稿では,よく知られた,実証された属性探索手法に基づく,新しい尺度探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measurement is a fundamental building block of numerous scientific models and
their creation. This is in particular true for data driven science. Due to the
high complexity and size of modern data sets, the necessity for the development
of understandable and efficient scaling methods is at hand. A profound theory
for scaling data is scale-measures, as developed in the field of formal concept
analysis. Recent developments indicate that the set of all scale-measures for a
given data set constitutes a lattice and does hence allow efficient exploring
algorithms. In this work we study the properties of said lattice and propose a
novel scale-measure exploration algorithm that is based on the well-known and
proven attribute exploration approach. Our results motivate multiple
applications in scale recommendation, most prominently (semi-)automatic
scaling.
- Abstract(参考訳): 測定は、多数の科学的モデルとその作成の基本的なビルディングブロックです。
これは特にデータ駆動科学に当てはまります。
現代のデータセットの複雑さとサイズが高いため、理解可能で効率的なスケーリングメソッドの開発の必要性が手中にあります。
データのスケーリングに関する深い理論は、形式的な概念分析の分野で開発されたスケール測定である。
近年の発展は、与えられたデータセットのすべてのスケール測定値の集合が格子を構成することを示し、効率的な探索アルゴリズムを可能にする。
本研究では,この格子の性質を研究し,よく知られた属性探索手法に基づく新しいスケール計測探索アルゴリズムを提案する。
私達の結果はスケールの推薦の複数の適用を、最も顕著な(半)自動スケーリング動機づけます。
関連論文リスト
- Scaling Up Diffusion and Flow-based XGBoost Models [5.944645679491607]
本稿では,XGBoostを拡散・流れマッチングモデルにおける関数近似器として利用するための最近の提案について検討する。
より優れた実装では、以前よりも370倍大きなデータセットにスケールできる。
我々は,Fast Calorimeter Simulation Challengeの一環として,大規模科学的データセットについて報告する。
論文 参考訳(メタデータ) (2024-08-28T18:00:00Z) - (Deep) Generative Geodesics [57.635187092922976]
2つのデータポイント間の類似性を評価するために,新しい測定基準を導入する。
我々の計量は、生成距離と生成測地学の概念的定義に繋がる。
彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。
論文 参考訳(メタデータ) (2024-07-15T21:14:02Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Intrinsic Dimension for Large-Scale Geometric Learning [0.0]
データセットの次元を決定するための単純なアプローチは、属性の数に基づいています。
より洗練された手法は、より複雑な特徴関数を用いる内在次元(ID)の概念を導出する。
論文 参考訳(メタデータ) (2022-10-11T09:50:50Z) - Revisiting Neural Scaling Laws in Language and Vision [43.57394336742374]
我々は、最適なパラメータを報告するのではなく、外挿損失に基づくより厳密な方法論を論じる。
本稿では,学習曲線から法則パラメータのスケーリングを確実に推定する手法を提案する。
複数のドメインにまたがる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。
論文 参考訳(メタデータ) (2022-09-13T09:41:51Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Smooth densities and generative modeling with unsupervised random
forests [1.433758865948252]
密度推定器の重要な応用は合成データ生成である。
パラメータ制約を伴わない任意の次元における滑らかな密度を推定するための,教師なしランダム森林に基づく新しい手法を提案する。
提案手法の整合性を証明し,既存の木質密度推定器に対する利点を実証する。
論文 参考訳(メタデータ) (2022-05-19T09:50:25Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。