論文の概要: OTClean: Data Cleaning for Conditional Independence Violations using
Optimal Transport
- arxiv url: http://arxiv.org/abs/2403.02372v1
- Date: Mon, 4 Mar 2024 18:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:18:40.743439
- Title: OTClean: Data Cleaning for Conditional Independence Violations using
Optimal Transport
- Title(参考訳): OTClean: 最適輸送を用いた条件付き独立性違反のためのデータクリーニング
- Authors: Alireza Pirhadi, Mohammad Hossein Moslemi, Alexander Cloninger,
Mostafa Milani, Babak Salimi
- Abstract要約: sysは、条件付き独立性(CI)制約下でのデータ修復に最適な輸送理論を利用するフレームワークである。
我々はSinkhornの行列スケーリングアルゴリズムにインスパイアされた反復アルゴリズムを開発し、高次元および大規模データを効率的に処理する。
- 参考スコア(独自算出の注目度): 51.6416022358349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring Conditional Independence (CI) constraints is pivotal for the
development of fair and trustworthy machine learning models. In this paper, we
introduce \sys, a framework that harnesses optimal transport theory for data
repair under CI constraints. Optimal transport theory provides a rigorous
framework for measuring the discrepancy between probability distributions,
thereby ensuring control over data utility. We formulate the data repair
problem concerning CIs as a Quadratically Constrained Linear Program (QCLP) and
propose an alternating method for its solution. However, this approach faces
scalability issues due to the computational cost associated with computing
optimal transport distances, such as the Wasserstein distance. To overcome
these scalability challenges, we reframe our problem as a regularized
optimization problem, enabling us to develop an iterative algorithm inspired by
Sinkhorn's matrix scaling algorithm, which efficiently addresses
high-dimensional and large-scale data. Through extensive experiments, we
demonstrate the efficacy and efficiency of our proposed methods, showcasing
their practical utility in real-world data cleaning and preprocessing tasks.
Furthermore, we provide comparisons with traditional approaches, highlighting
the superiority of our techniques in terms of preserving data utility while
ensuring adherence to the desired CI constraints.
- Abstract(参考訳): 条件付き独立性(ci)の制約の確保は、公正で信頼できる機械学習モデルの開発に不可欠である。
本稿では,CI制約下でのデータ修復に最適な輸送理論を利用するフレームワークであるShasysを紹介する。
最適輸送理論は、確率分布間の不一致を測定するための厳密な枠組みを提供し、データユーティリティの制御を保証する。
本稿では、CIに関するデータ修復問題をQCLP(Quadratically Constrained Linear Program)として定式化し、その解の交互化法を提案する。
しかし、このアプローチはワッサーシュタイン距離などの最適輸送距離の計算に伴う計算コストによってスケーラビリティの問題に直面している。
これらのスケーラビリティの課題を克服するため,我々は,高次元および大規模データを効率的に扱うシンクホーンの行列スケーリングアルゴリズムにインスパイアされた反復アルゴリズムを開発することができるように,正規化された最適化問題として問題を再構築した。
本研究では,提案手法の有効性と有効性を実証し,実世界のデータクリーニングおよび前処理作業における実用性を実証する。
さらに,従来の手法との比較を行い,要求されるci制約の遵守を確保しつつ,データの有用性を保ちながら,技術の優位性を強調する。
関連論文リスト
- AdapFair: Ensuring Continuous Fairness for Machine Learning Operations [7.909259406397651]
本稿では、入力データの最適な公正な変換を見つけるために設計されたデバイアス化フレームワークを提案する。
正規化フローを活用して、効率的な情報保存データ変換を可能にします。
閉形式勾配計算を用いた効率的な最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-23T15:01:47Z) - Integer Optimization of CT Trajectories using a Discrete Data
Completeness Formulation [3.924235219960689]
X線CTは、幅広い医療・産業用途のために3次元構造をデジタル化する上で重要な役割を果たしている。
従来のCTシステムは、しばしば標準的な円形およびヘリカルスキャンの軌跡に依存しており、大きな物体、複雑な構造、資源の制約を含む挑戦的なシナリオには最適ではないかもしれない。
我々は、対象物に関する任意の視点から投影を得る柔軟性を提供する双対ロボットCTシステムの可能性を探っている。
論文 参考訳(メタデータ) (2024-01-29T10:38:58Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Efficient Learning of Decision-Making Models: A Penalty Block Coordinate
Descent Algorithm for Data-Driven Inverse Optimization [12.610576072466895]
我々は、意思決定プロセスを明らかにするために、事前の意思決定データを使用する逆問題を考える。
この統計的学習問題は、データ駆動逆最適化と呼ばれる。
そこで本稿では,大規模問題を解くために,効率的なブロック座標降下に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:52:56Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。