論文の概要: The Benefits of Balance: From Information Projections to Variance Reduction
- arxiv url: http://arxiv.org/abs/2408.15065v2
- Date: Tue, 11 Feb 2025 17:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:04:23.256510
- Title: The Benefits of Balance: From Information Projections to Variance Reduction
- Title(参考訳): バランスのメリット:情報投影から分散化へ
- Authors: Lang Liu, Ronak Mehta, Soumik Pal, Zaid Harchaoui,
- Abstract要約: モダリティとソース間のデータバランシングは、実際には疑わしいメリットがある。
この分散還元効果を定量化し、マルコフ作用素の固有値崩壊と関連付ける非漸近統計境界を示す。
- 参考スコア(独自算出の注目度): 7.082773426322819
- License:
- Abstract: Data balancing across multiple modalities and sources appears in various forms in foundation models in machine learning and AI, e.g. in CLIP and DINO. We show that data balancing across modalities and sources actually offers an unsuspected benefit: variance reduction. We present a non-asymptotic statistical bound that quantifies this variance reduction effect and relates it to the eigenvalue decay of Markov operators. Furthermore, we describe how various forms of data balancing in contrastive multimodal learning and self-supervised clustering can be better understood, and even improved upon, owing to our variance reduction viewpoint.
- Abstract(参考訳): 複数のモダリティとソースにわたるデータのバランシングは、機械学習やAIの基盤モデル、例えばCLIPやDINOのさまざまな形式で現れる。
モダリティとソース間のデータバランシングは、実際には疑わしいメリットがある。
この分散還元効果を定量化し、マルコフ作用素の固有値崩壊と関連付ける非漸近統計境界を示す。
さらに,マルチモーダル学習や自己教師付きクラスタリングにおいて,データバランシングのさまざまな形態をよりよく理解し,さらに分散低減の観点から改善する方法について述べる。
関連論文リスト
- Disentanglement with Factor Quantized Variational Autoencoders [11.086500036180222]
本稿では,生成因子に関する基礎的真理情報をモデルに提供しない離散変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 離散表現を学習する上で, 連続表現を学習することの利点を実証する。
FactorQVAEと呼ばれる手法は、最適化に基づく不整合アプローチと離散表現学習を組み合わせる。
論文 参考訳(メタデータ) (2024-09-23T09:33:53Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Rethinking Semi-Supervised Imbalanced Node Classification from
Bias-Variance Decomposition [18.3055496602884]
本稿では,グラフ構造データ学習のためのグラフニューラルネットワーク(GNN)におけるクラス不均衡問題に対する新しいアプローチを提案する。
提案手法は,不均衡ノード分類とバイアス分散分解を統合し,モデル分散にデータ不均衡を密接に関連付ける理論的枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-28T17:28:07Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Learning Invariant Weights in Neural Networks [16.127299898156203]
機械学習でよく使われるモデルの多くは、データ内の特定の対称性を尊重することを制約している。
本稿では,ニューラルネットワークにおける不変性学習の限界値の最小化により,このアプローチに準ずる重み空間を提案する。
論文 参考訳(メタデータ) (2022-02-25T00:17:09Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。