論文の概要: Regularization for Shuffled Data Problems via Exponential Family Priors
on the Permutation Group
- arxiv url: http://arxiv.org/abs/2111.01767v1
- Date: Tue, 2 Nov 2021 17:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:15:58.097169
- Title: Regularization for Shuffled Data Problems via Exponential Family Priors
on the Permutation Group
- Title(参考訳): 順列群における指数族優先によるシャッフルデータ問題の正規化
- Authors: Zhenbang Wang, Emanuel Ben-David, Martin Slawski
- Abstract要約: シャッフルデータ(Shuffled data)とは、(X, Y)ペアの正しいペアリングが未知のインデックス置換によって表現されるデータである。
この目的のために、置換群に先立ってフレキシブル指数族を提案する。
推論は、抽出可能なEステップをFisher-Yatesアルゴリズムで近似するEMアルゴリズムに基づいている。
- 参考スコア(独自算出の注目度): 8.40077201352607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the analysis of data sets consisting of (X, Y)-pairs, a tacit assumption
is that each pair corresponds to the same observation unit. If, however, such
pairs are obtained via record linkage of two files, this assumption can be
violated as a result of mismatch error rooting, for example, in the lack of
reliable identifiers in the two files. Recently, there has been a surge of
interest in this setting under the term "Shuffled data" in which the underlying
correct pairing of (X, Y)-pairs is represented via an unknown index
permutation. Explicit modeling of the permutation tends to be associated with
substantial overfitting, prompting the need for suitable methods of
regularization. In this paper, we propose a flexible exponential family prior
on the permutation group for this purpose that can be used to integrate various
structures such as sparse and locally constrained shuffling. This prior turns
out to be conjugate for canonical shuffled data problems in which the
likelihood conditional on a fixed permutation can be expressed as product over
the corresponding (X,Y)-pairs. Inference is based on the EM algorithm in which
the intractable E-step is approximated by the Fisher-Yates algorithm. The
M-step is shown to admit a significant reduction from $n^2$ to $n$ terms if the
likelihood of (X,Y)-pairs has exponential family form as in the case of
generalized linear models. Comparisons on synthetic and real data show that the
proposed approach compares favorably to competing methods.
- Abstract(参考訳): X, Y)-ペアからなるデータセットの分析では、各ペアが同じ観測単位に対応するという暗黙の仮定がある。
しかし、そのようなペアが2つのファイルのレコードリンクによって得られる場合、例えば2つのファイルに信頼できる識別子が欠如している場合、この仮定はミスマッチエラーのルート化の結果違反する可能性がある。
近年、(X, Y)-ペアの基底となる正しいペアリングが未知の指数置換によって表現される「シャッフルデータ」という用語の下で、この設定への関心が高まっている。
置換の明示的なモデリングは、かなり過度なオーバーフィッティングと関連付けられ、正規化の適切な方法の必要性が生じる。
本稿では,置換群に先立つ柔軟な指数関数族を提案し,スパースや局所制約付きシャッフルといった様々な構造を統合することを可能にする。
このことは、固定置換の確率条件を対応する(X,Y)ペア上で積として表現できる正準シャッフルデータ問題に対する共役であることが判明した。
推論は、抽出可能なEステップをFisher-Yatesアルゴリズムによって近似するEMアルゴリズムに基づいている。
M-ステップは、(X,Y)-ペアの確率が一般化線形モデルの場合のように指数関数的な族形式を持つ場合、$n^2$から$n$ termsへの顕著な還元が認められる。
合成データと実データの比較は,提案手法が競合手法と良好に比較できることを示している。
関連論文リスト
- BI-EqNO: Generalized Approximate Bayesian Inference with an Equivariant Neural Operator Framework [9.408644291433752]
一般化されたベイズ近似のための同変ニューラル演算系であるBI-EqNOを導入する。
BI-EqNOは、データ駆動トレーニングを通じて、条件付き観測データに基づいて事前を後方に変換する。
BI-EqNO の応用例は,(1) 回帰のための一般化ガウス過程 (gGP) と(2) 逐次データ同化のためのアンサンブルニューラルフィルタ (EnNF) の2つである。
論文 参考訳(メタデータ) (2024-10-21T18:39:16Z) - Conformalization of Sparse Generalized Linear Models [2.1485350418225244]
等角予測法は、任意の有限サンプルサイズに対して有効である$y_n+1$の信頼セットを推定する。
魅力的ではあるが、そのような集合の計算は多くの回帰問題において計算不可能である。
経路追従アルゴリズムが共形予測集合を正確に近似する方法を示す。
論文 参考訳(メタデータ) (2023-07-11T08:36:12Z) - Doubly Stochastic Matrix Models for Estimation of Distribution
Algorithms [2.28438857884398]
本稿では,自然置換問題のマッチングと割当てにDSM(Douubly Matrices)を用いる方法について検討する。
具体的には、分散アルゴリズムの推定の枠組みを採用し、DSMを置換問題に対する既存の提案と比較する。
二次代入問題の事例に関する予備実験は、この研究の行を検証し、DSMが非常に競争力のある結果が得られることを示した。
論文 参考訳(メタデータ) (2023-04-05T14:36:48Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Sparse Quadratic Optimisation over the Stiefel Manifold with Application
to Permutation Synchronisation [71.27989298860481]
二次目的関数を最大化するスティーフェル多様体上の行列を求める非最適化問題に対処する。
そこで本研究では,支配的固有空間行列を求めるための,単純かつ効果的なスパーシティプロモーティングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-30T19:17:35Z) - Learning Bayesian Networks through Birkhoff Polytope: A Relaxation
Method [0.0]
我々は、ガウス線形構造方程式モデルからデータを生成する際に、有向非巡回グラフ(DAG)を学習するための新しい枠組みを確立する。
置換行列推定では,順序推定のNPハード問題を回避する緩和手法を提案する。
本フレームワークは,非循環性制約の高価な検証や,可能な親集合の列挙を必要とせずにDAGを復元する。
論文 参考訳(メタデータ) (2021-07-04T15:04:02Z) - Variance-Reduced Splitting Schemes for Monotone Stochastic Generalized
Equations [0.0]
演算子を期待値とする単調な包摂問題を考える。
分割スキームの直接適用は、各ステップにおける期待値マップによる問題解決の必要性により複雑である。
本稿では,不確実性に対処する手法を提案する。
論文 参考訳(メタデータ) (2020-08-26T02:33:27Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。