論文の概要: Fast and fully-automated histograms for large-scale data sets
- arxiv url: http://arxiv.org/abs/2212.13524v1
- Date: Tue, 27 Dec 2022 15:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:01:20.746459
- Title: Fast and fully-automated histograms for large-scale data sets
- Title(参考訳): 大規模データセットのための高速かつ完全自動ヒストグラム
- Authors: Valentina Zelaya Mendiz\'abal (SAMM), Marc Boull\'e, Fabrice Rossi
(CEREMADE)
- Abstract要約: G-Enumヒストグラムは不規則ヒストグラム構築のための新しい高速かつ完全に自動化された方法である。
最小記述長の原理を利用して、2つの異なるモデル選択基準を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: G-Enum histograms are a new fast and fully automated method for irregular
histogram construction. By framing histogram construction as a density
estimation problem and its automation as a model selection task, these
histograms leverage the Minimum Description Length principle (MDL) to derive
two different model selection criteria. Several proven theoretical results
about these criteria give insights about their asymptotic behavior and are used
to speed up their optimisation. These insights, combined to a greedy search
heuristic, are used to construct histograms in linearithmic time rather than
the polynomial time incurred by previous works. The capabilities of the
proposed MDL density estimation method are illustrated with reference to other
fully automated methods in the literature, both on synthetic and large
real-world data sets.
- Abstract(参考訳): G-Enumヒストグラムは不規則ヒストグラム構築の新しい高速かつ完全自動化法である。
ヒストグラム構造を密度推定問題として、そしてモデル選択タスクとして自動化することにより、これらのヒストグラムは最小記述長原理(MDL)を利用して2つの異なるモデル選択基準を導出する。
これらの基準に関するいくつかの理論的な結果は、漸近的な振る舞いについての洞察を与え、最適化をスピードアップするために用いられる。
これらの洞察は、欲深い探索ヒューリスティックと組み合わせられ、以前の作品によってもたらされる多項式時間よりも、線形時間におけるヒストグラムを構築するために用いられる。
提案したmdl密度推定法の性能は,合成データと大規模実世界データの両方について,文献中の他の完全自動化手法を参照して示される。
関連論文リスト
- Align Your Steps: Optimizing Sampling Schedules in Diffusion Models [63.927438959502226]
拡散モデル(DM)は、視覚領域以降における最先端の生成モデリングアプローチとして確立されている。
DMの重大な欠点は、サンプリング速度の遅いことであり、大規模なニューラルネットワークによる多くのシーケンシャルな関数評価に依存している。
本稿では,DMのサンプリングスケジュールを高品質な出力に最適化する汎用的,原理的な手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T18:18:41Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Maximum Independent Set: Self-Training through Dynamic Programming [56.670639478539485]
本研究では、動的プログラミング(DP)にインスパイアされた最大独立集合(MIS)問題を解決するグラフニューラルネットワーク(GNN)フレームワークを提案する。
GNNをベースとしたDPライクな再帰アルゴリズムを提案し、まず2つの小さなサブグラフを構築し、より大きなMISを持つサブグラフを予測し、次に再帰呼び出しを行う。
MISサイズに関する異なるグラフの比較を注釈付けすると、自己学習プロセスが発生し、比較をより正確に自己アノテーションし、その逆も引き起こされる。
論文 参考訳(メタデータ) (2023-10-28T10:58:25Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Learning the hub graphical Lasso model with the structured sparsity via
an efficient algorithm [1.0923877073891446]
ハブグラフィカルモデルを推定する二相アルゴリズムを提案する。
提案アルゴリズムはまず,乗算器の2つの交互方向法を用いてよい初期点を生成する。
その後、半滑らかなニュートン(SSN)ベースの拡張ラグランジアン法(ALM)を温め、実用的なタスクに十分正確な解を計算する。
論文 参考訳(メタデータ) (2023-08-17T08:24:28Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - Two-level histograms for dealing with outliers and heavy tail
distributions [0.0]
我々は,G-Enumヒストグラム法に着目し,最小記述長(MDL)の原理を用いてユーザパラメータを使わずにヒストグラムを構築する。
本研究では, 降圧器や重み付き分布の場合に, この手法の限界について検討する。
最初のレベルはデータの対数変換を利用して、データセットを制御範囲の値を持つデータサブセットのリストに分割する。
第2のレベルは、各データサブセットに対してサブヒストグラムを構築し、それらを集約して完全なヒストグラムを得る。
論文 参考訳(メタデータ) (2023-06-09T09:57:18Z) - Integrating Transformer and Autoencoder Techniques with Spectral Graph
Algorithms for the Prediction of Scarcely Labeled Molecular Data [2.8360662552057323]
この課題に対処するために、Merriman-Bence-Osher(MBO)テクニックを取り入れたグラフベースの3つのモデルを導入する。
具体的には、MBO方式のグラフベースの修正は、自家製のトランスフォーマーやオートエンコーダなどの最先端技術と統合されている。
提案したモデルは,5つのベンチマークデータセットを用いて検証する。
論文 参考訳(メタデータ) (2022-11-12T22:45:32Z) - Imputing Missing Observations with Time Sliced Synthetic Minority
Oversampling Technique [0.3973560285628012]
本稿では,データセット内の各サンプルに対して均一な不規則な時系列を構成することを目的とした,単純かつ斬新な時系列計算手法を提案する。
我々は、観測時間の重複しないビン(「スライス」と呼ばれる)の中間点で定義される格子を固定し、各サンプルが所定の時間にすべての特徴に対して値を持つことを保証する。
これにより、完全に欠落した観察をインプットし、データ全体の時系列の均一な分類を可能にし、特別な場合には個々の欠落した特徴をインプットすることができる。
論文 参考訳(メタデータ) (2022-01-14T19:23:24Z) - Auto-decoding Graphs [91.3755431537592]
生成モデルは、潜在コードからグラフを合成することを学ぶ自動デコーダである。
グラフは、おそらく接続パターンを特定するためにトレーニングされた自己アテンションモジュールを使用して合成される。
論文 参考訳(メタデータ) (2020-06-04T14:23:01Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。