論文の概要: Curvature Enhanced Data Augmentation for Regression
- arxiv url: http://arxiv.org/abs/2506.06853v1
- Date: Sat, 07 Jun 2025 16:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.530059
- Title: Curvature Enhanced Data Augmentation for Regression
- Title(参考訳): 回帰のための曲線強化データ拡張
- Authors: Ilya Kaufman Sirot, Omri Azencot,
- Abstract要約: 回帰タスクに対する曲率強化マニフォールドサンプリング(CEMS)手法を提案する。
CEMSは、ディストリビューションとアウト・オブ・ディストリビューションの両方のシナリオで優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 4.910937238451485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models with a large number of parameters, often referred to as over-parameterized models, have achieved exceptional performance across various tasks. Despite concerns about overfitting, these models frequently generalize well to unseen data, thanks to effective regularization techniques, with data augmentation being among the most widely used. While data augmentation has shown great success in classification tasks using label-preserving transformations, its application in regression problems has received less attention. Recently, a novel \emph{manifold learning} approach for generating synthetic data was proposed, utilizing a first-order approximation of the data manifold. Building on this foundation, we present a theoretical framework and practical tools for approximating and sampling general data manifolds. Furthermore, we introduce the Curvature-Enhanced Manifold Sampling (CEMS) method for regression tasks. CEMS leverages a second-order representation of the data manifold to enable efficient sampling and reconstruction of new data points. Extensive evaluations across multiple datasets and comparisons with state-of-the-art methods demonstrate that CEMS delivers superior performance in both in-distribution and out-of-distribution scenarios, while introducing only minimal computational overhead. Code is available at https://github.com/azencot-group/CEMS.
- Abstract(参考訳): 多数のパラメータを持つディープラーニングモデル(しばしば過パラメータ化モデルと呼ばれる)は、様々なタスクで例外的なパフォーマンスを実現している。
オーバーフィッティングに関する懸念にもかかわらず、これらのモデルは、効果的な正規化技術のおかげで、しばしば目に見えないデータによく一般化される。
データ拡張はラベル保存変換を用いた分類タスクにおいて大きな成功を収めてきたが、回帰問題への応用はあまり注目されていない。
近年,データ多様体の1次近似を利用して,合成データを生成する新しい「emph{manifold learning}」手法が提案されている。
この基礎の上に構築され、一般データ多様体の近似とサンプリングのための理論的枠組みと実践的ツールを提供する。
さらに、回帰タスクのための曲率強化マニフォールドサンプリング(CEMS)手法についても紹介する。
CEMSはデータ多様体の2階表現を利用して、新しいデータポイントの効率的なサンプリングと再構築を可能にする。
複数のデータセットにわたる広範囲な評価と最先端の手法との比較により、CEMSは、最小限の計算オーバーヘッドを導入しながら、分配シナリオと非分配シナリオの両方で優れたパフォーマンスを提供することが示された。
コードはhttps://github.com/azencot-group/CEMSで入手できる。
関連論文リスト
- DAPLSR: Data Augmentation Partial Least Squares Regression Model via Manifold Optimization [6.200365627295667]
本稿では,データ拡張部分最小二乗回帰モデルを提案する。
提案したDAPLSRモデルは,各種データセットにおける優れた分類性能と優れた評価指標を実現する。
論文 参考訳(メタデータ) (2025-04-23T11:58:28Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - First-Order Manifold Data Augmentation for Regression Learning [4.910937238451485]
我々は、新しいデータ駆動型ドメイン非依存データ拡張法であるFOMAを紹介する。
分布内一般化と分布外ベンチマークに基づいてFOMAを評価し,いくつかのニューラルアーキテクチャの一般化を改善することを示す。
論文 参考訳(メタデータ) (2024-06-16T12:35:05Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - Nonparametric Functional Analysis of Generalized Linear Models Under
Nonlinear Constraints [0.0]
本稿では、一般化線形モデルのための新しい非パラメトリック方法論を紹介する。
これは二項回帰の強さとカテゴリーデータに対する潜在変数の定式化の強さを組み合わせたものである。
これは最近公開された方法論のパラメトリックバージョンを拡張し、一般化する。
論文 参考訳(メタデータ) (2021-10-11T04:49:59Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。