論文の概要: Exactly mergeable summaries
- arxiv url: http://arxiv.org/abs/2303.15465v1
- Date: Sat, 25 Mar 2023 01:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 17:53:01.229012
- Title: Exactly mergeable summaries
- Title(参考訳): 厳密にマージ可能な要約
- Authors: Vladimir Batagelj
- Abstract要約: 従来のアグリゲーションの問題は、しばしば多くの情報が破棄され、その結果の精度が低下することである。
複雑なデータ分析では、選択されたグループ$A$の値が複雑なオブジェクト$Sigma(A)$に集約され、単一の値に含まれない。
集約関数論の大部分は直接適用されない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the analysis of large/big data sets, aggregation (replacing values of a
variable over a group by a single value) is a standard way of reducing the size
(complexity) of the data. Data analysis programs provide different aggregation
functions.
Recently some books dealing with the theoretical and algorithmic background
of traditional aggregation functions were published. A problem with traditional
aggregation is that often too much information is discarded thus reducing the
precision of the obtained results. A much better, preserving more information,
summarization of original data can be achieved by representing aggregated data
using selected types of complex data.
In complex data analysis the measured values over a selected group $A$ are
aggregated into a complex object $\Sigma(A)$ and not into a single value. Most
of the aggregation functions theory does not apply directly. In our
contribution, we present an attempt to start building a theoretical background
of complex aggregation.
We introduce and discuss exactly mergeable summaries for which it holds for
merging of disjoint sets of units
\[ \Sigma(A \cup B) = F( \Sigma(A),\Sigma(B)),\qquad \mbox{ for } \quad A\cap
B = \emptyset .\]
- Abstract(参考訳): 大規模/大規模データセットの解析において、アグリゲーション(単一の値でグループ上の変数の値を返す)は、データのサイズ(複雑度)を減らす標準的な方法である。
データ解析プログラムは異なる集約機能を提供します。
近年、従来の集約関数の理論的背景とアルゴリズム的背景を扱う本が出版された。
従来のアグリゲーションの問題は、しばしば多くの情報が破棄され、その結果の精度が低下することである。
より優れた情報保存により、選択された複雑なデータを用いて集約されたデータを表現することで、元のデータの要約を実現することができる。
複素データ解析では、選択されたグループ$A$の値が複素オブジェクト$\Sigma(A)$に集約され、単一の値にはならない。
集約関数論の大部分は直接適用されない。
本稿では,複雑な集約の理論的背景の構築に着手する試みについて述べる。
単位の非連結集合 \[ \sigma(a \cup b) = f( \sigma(a),\sigma(b)),\qquad \mbox{ for } \quad a\cap b = \emptyset をマージするためのマージ可能なサマリーを紹介し、議論する。
\]
関連論文リスト
- Statistical-Computational Trade-offs for Density Estimation [60.81548752871115]
幅広い種類のデータ構造に対して、それらの境界は著しく改善されないことを示す。
これは密度推定のための新しい統計計算トレードオフである。
論文 参考訳(メタデータ) (2024-10-30T15:03:33Z) - Clustering Mixtures of Bounded Covariance Distributions Under Optimal
Separation [44.25945344950543]
境界共分散分布の混合に対するクラスタリング問題について検討する。
このクラスタリングタスクに対して,最初のポリ時間アルゴリズムを提案する。
我々のアルゴリズムは、対数外乱の$Omega(alpha)$-fractionに対して堅牢である。
論文 参考訳(メタデータ) (2023-12-19T01:01:53Z) - EM for Mixture of Linear Regression with Clustered Data [6.948976192408852]
分散データにおけるクラスタ構造をどのように活用して学習手法を改善するかについて議論する。
我々は、既知の期待値最大化(EM)法を用いて、依存サンプルの$m$バッチから最大値パラメータを推定する。
構造化データ上のEMが適切であれば、$m$が$eo(n)$になる限り、同じ統計的精度に達するのに$O(1)$しか必要としないことを示す。
論文 参考訳(メタデータ) (2023-08-22T15:47:58Z) - More Communication Does Not Result in Smaller Generalization Error in
Federated Learning [9.00236182523638]
フェデレーテッド・ラーニング・セッティングにおける統計的学習モデルの一般化誤差について検討する。
モデル集約の多重(mathbb N*$の$R)ラウンドについて検討し、最終的な集約モデルの一般化誤差に対する$R$の効果について検討する。
論文 参考訳(メタデータ) (2023-04-24T15:56:11Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Learning Aggregation Functions [78.47770735205134]
任意の濃度の集合に対する学習可能なアグリゲータであるLAF(Learning Aggregation Function)を紹介する。
半合成および実データを用いて,LAFが最先端の和(max-)分解アーキテクチャより優れていることを示す実験を報告する。
論文 参考訳(メタデータ) (2020-12-15T18:28:53Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Query-Efficient Correlation Clustering [13.085439249887713]
相関クラスタリングはクラスタリングの最も自然な定式化であることは間違いない。
相関クラスタリングの主な欠点は、入力として$Theta(n2)$ペアの類似性を必要とすることである。
我々は,最大3cdot OPT + O(fracn3Q)$の相違点が期待される解が得られる相関クラスタリングアルゴリズムを考案した。
論文 参考訳(メタデータ) (2020-02-26T15:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。