論文の概要: The Benefits of Balance: From Information Projections to Variance Reduction
- arxiv url: http://arxiv.org/abs/2408.15065v2
- Date: Tue, 11 Feb 2025 17:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 18:22:47.633522
- Title: The Benefits of Balance: From Information Projections to Variance Reduction
- Title(参考訳): バランスのメリット:情報投影から分散化へ
- Authors: Lang Liu, Ronak Mehta, Soumik Pal, Zaid Harchaoui,
- Abstract要約: モダリティとソース間のデータバランシングは、実際には疑わしいメリットがある。
この分散還元効果を定量化し、マルコフ作用素の固有値崩壊と関連付ける非漸近統計境界を示す。
- 参考スコア(独自算出の注目度): 7.082773426322819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data balancing across multiple modalities and sources appears in various forms in foundation models in machine learning and AI, e.g. in CLIP and DINO. We show that data balancing across modalities and sources actually offers an unsuspected benefit: variance reduction. We present a non-asymptotic statistical bound that quantifies this variance reduction effect and relates it to the eigenvalue decay of Markov operators. Furthermore, we describe how various forms of data balancing in contrastive multimodal learning and self-supervised clustering can be better understood, and even improved upon, owing to our variance reduction viewpoint.
- Abstract(参考訳): 複数のモダリティとソースにわたるデータのバランシングは、機械学習やAIの基盤モデル、例えばCLIPやDINOのさまざまな形式で現れる。
モダリティとソース間のデータバランシングは、実際には疑わしいメリットがある。
この分散還元効果を定量化し、マルコフ作用素の固有値崩壊と関連付ける非漸近統計境界を示す。
さらに,マルチモーダル学習や自己教師付きクラスタリングにおいて,データバランシングのさまざまな形態をよりよく理解し,さらに分散低減の観点から改善する方法について述べる。
関連論文リスト
- Disentanglement with Factor Quantized Variational Autoencoders [11.086500036180222]
本稿では,生成因子に関する基礎的真理情報をモデルに提供しない離散変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 離散表現を学習する上で, 連続表現を学習することの利点を実証する。
FactorQVAEと呼ばれる手法は、最適化に基づく不整合アプローチと離散表現学習を組み合わせる。
論文 参考訳(メタデータ) (2024-09-23T09:33:53Z) - Unsupervised Representation Learning by Balanced Self Attention Matching [2.3020018305241337]
本稿では,BAMと呼ばれる画像特徴を埋め込む自己教師型手法を提案する。
我々は,これらの分布とグローバルな均衡とエントロピー正規化バージョンに一致する損失を最小化することにより,豊かな表現と特徴の崩壊を回避する。
半教師付きベンチマークと移動学習ベンチマークの両方において,先行手法と競合する性能を示す。
論文 参考訳(メタデータ) (2024-08-04T12:52:44Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Rethinking Semi-Supervised Imbalanced Node Classification from Bias-Variance Decomposition [17.742433178056903]
本稿では,グラフ構造データ学習のためのグラフニューラルネットワーク(GNN)におけるクラス不均衡問題に対する新しいアプローチを提案する。
提案手法は,不均衡ノード分類とバイアス分散分解を統合し,モデル分散にデータ不均衡を密接に関連付ける理論的枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-28T17:28:07Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Learning Disentangled Discrete Representations [22.5004558029479]
本稿では,標準ガウス変分オートエンコーダをカテゴリー変分オートエンコーダに置き換えることで,離散潜在空間と非交分表現の関係を示す。
本研究では,非絡み合った表現を学習する上で,個別のVAEの利点を示す分析的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2023-07-26T12:29:58Z) - Supervised Contrastive Learning with Heterogeneous Similarity for
Distribution Shifts [3.7819322027528113]
本稿では,教師付きコントラスト学習を用いた新たな正規化手法を提案する。
サブポピュレーションシフトや領域一般化などの分布シフトをエミュレートするベンチマークデータセットの実験は,提案手法の利点を実証している。
論文 参考訳(メタデータ) (2023-04-07T01:45:09Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Learning Invariant Weights in Neural Networks [16.127299898156203]
機械学習でよく使われるモデルの多くは、データ内の特定の対称性を尊重することを制約している。
本稿では,ニューラルネットワークにおける不変性学習の限界値の最小化により,このアプローチに準ずる重み空間を提案する。
論文 参考訳(メタデータ) (2022-02-25T00:17:09Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。