論文の概要: Compositional World Knowledge leads to High Utility Synthetic data
- arxiv url: http://arxiv.org/abs/2503.04687v1
- Date: Thu, 06 Mar 2025 18:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:42.129919
- Title: Compositional World Knowledge leads to High Utility Synthetic data
- Title(参考訳): 構成的世界知識が高ユーティリティ合成データに導く
- Authors: Sachit Gaudi, Gautam Sreekumar, Vishnu Boddeti,
- Abstract要約: 限られたデータに対する条件付き拡散モデルのトレーニングが,不正確な基礎分布をもたらすことを示す。
我々は、条件付き独立を強制することによって世界の構成的性質を反映するCoInDを提案する。
我々は、CoInDが生成した合成データが忠実であることを示し、これはCelebAにおける合成シフトタスクにおける最先端の最悪のグループ精度に変換する。
- 参考スコア(独自算出の注目度): 1.0923877073891446
- License:
- Abstract: Machine learning systems struggle with robustness, under subpopulation shifts. This problem becomes especially pronounced in scenarios where only a subset of attribute combinations is observed during training -a severe form of subpopulation shift, referred as compositional shift. To address this problem, we ask the following question: Can we improve the robustness by training on synthetic data, spanning all possible attribute combinations? We first show that training of conditional diffusion models on limited data lead to incorrect underlying distribution. Therefore, synthetic data sampled from such models will result in unfaithful samples and does not lead to improve performance of downstream machine learning systems. To address this problem, we propose CoInD to reflect the compositional nature of the world by enforcing conditional independence through minimizing Fisher's divergence between joint and marginal distributions. We demonstrate that synthetic data generated by CoInD is faithful and this translates to state-of-the-art worst-group accuracy on compositional shift tasks on CelebA.
- Abstract(参考訳): 機械学習システムは人口移動の下で頑丈さに苦しむ。
この問題は、トレーニング中に属性の組み合わせのサブセットのみが観察されるシナリオにおいて特に顕著になる。
この問題に対処するために、我々は以下の質問に答える: 合成データによるトレーニングにより、可能なすべての属性の組み合わせにまたがるロバスト性を改善することができるか?
まず、限られたデータに対する条件拡散モデルのトレーニングが、誤った基礎分布をもたらすことを示す。
したがって、そのようなモデルからサンプリングされた合成データは、不誠実なサンプルとなり、下流機械学習システムの性能向上に繋がらない。
この問題に対処するため,我々はフィッシャーの結合分布と辺縁分布のばらつきを最小限に抑え,条件付き独立を強制することによって世界の構成特性を反映するCoInDを提案する。
我々は、CoInDが生成した合成データが忠実であることを示し、これはCelebAにおける合成シフトタスクにおける最先端の最悪のグループ精度に変換する。
関連論文リスト
- Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Fully Embedded Time-Series Generative Adversarial Networks [0.0]
GAN(Generative Adversarial Networks)は、モデル化されているデータの基盤となる分布に適合する合成データを生成する。
実値の時系列データの場合、これはデータの静的な分布を同時にキャプチャする必要があるだけでなく、潜在的な時間的地平線に対するデータの完全な時間的分布も同時に取得する必要があることを意味する。
FETSGANでは、全シーケンスはSeq2seqスタイルの逆自動エンコーダ(AAE)を使用して、ジェネレータのサンプリング空間に直接変換される。
論文 参考訳(メタデータ) (2023-08-30T03:14:02Z) - SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems [39.675787338941184]
本稿では,データ不均衡問題に対処する合成データの可能性について検討する。
具体的には、SynAuGと呼ばれる手法は、学習データの不均衡分布を等化するために合成データを利用する。
実データと合成データの間には領域ギャップが存在するが,SynAuGを用いたトレーニングと,いくつかの実データを用いた微調整により,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-02T07:59:25Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。