論文の概要: Breaking the Correlation Plateau: On the Optimization and Capacity Limits of Attention-Based Regressors
- arxiv url: http://arxiv.org/abs/2602.17898v1
- Date: Thu, 19 Feb 2026 23:33:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.179605
- Title: Breaking the Correlation Plateau: On the Optimization and Capacity Limits of Attention-Based Regressors
- Title(参考訳): 相関台地を打破する:注意型回帰器の最適化と容量限界について
- Authors: Jingquan Yan, Yuwei Miao, Peiran Yu, Junzhou Huang,
- Abstract要約: トレーニング中によく理解されていない現象は、PCC台地である:PCCは、MSEが減少し続けるにもかかわらず、トレーニングの早期改善を停止する。
我々は,この挙動の厳密な理論的解析を行い,最適化力学とモデルキャパシティの両面での基本的な限界を明らかにした。
これらの知見により,PCC最適化を改良し,凸殻を超えて外挿する新しい理論的動機付け機構を組み込んだ補間相関注意(ECA)を提案する。
- 参考スコア(独自算出の注目度): 21.002587086609243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based regression models are often trained by jointly optimizing Mean Squared Error (MSE) loss and Pearson correlation coefficient (PCC) loss, emphasizing the magnitude of errors and the order or shape of targets, respectively. A common but poorly understood phenomenon during training is the PCC plateau: PCC stops improving early in training, even as MSE continues to decrease. We provide the first rigorous theoretical analysis of this behavior, revealing fundamental limitations in both optimization dynamics and model capacity. First, in regard to the flattened PCC curve, we uncover a critical conflict where lowering MSE (magnitude matching) can paradoxically suppress the PCC gradient (shape matching). This issue is exacerbated by the softmax attention mechanism, particularly when the data to be aggregated is highly homogeneous. Second, we identify a limitation in the model capacity: we derived a PCC improvement limit for any convex aggregator (including the softmax attention), showing that the convex hull of the inputs strictly bounds the achievable PCC gain. We demonstrate that data homogeneity intensifies both limitations. Motivated by these insights, we propose the Extrapolative Correlation Attention (ECA), which incorporates novel, theoretically-motivated mechanisms to improve the PCC optimization and extrapolate beyond the convex hull. Across diverse benchmarks, including challenging homogeneous data setting, ECA consistently breaks the PCC plateau, achieving significant improvements in correlation without compromising MSE performance.
- Abstract(参考訳): 注意に基づく回帰モデルは、平均正方形誤差(MSE)損失とピアソン相関係数(PCC)損失をそれぞれ最適化し、誤差の大きさとターゲットの順序や形状を強調することで、しばしば訓練される。
トレーニング中によく理解されていない現象は、PCC台地である:PCCは、MSEが減少し続けるにもかかわらず、トレーニングの早期改善を停止する。
我々は,この挙動の厳密な理論的解析を行い,最適化力学とモデルキャパシティの両面での基本的な限界を明らかにした。
まず,PCC曲線の平坦化に関して,MSEの低下がPCC勾配(形状整合)をパラドックス的に抑制する致命的な矛盾を明らかにする。
この問題は、特に集約されるデータが非常に均一である場合、ソフトマックスアテンション機構によって悪化する。
第二に,入力の凸殻が達成可能なPCCゲインに厳密に拘束されていることを示すため,任意の凸アグリゲータ(ソフトマックスアグリゲータを含む)に対するPCC改善限界を導出した。
データの均一性は両方の制限を強化することを実証する。
これらの知見により,PCC最適化を改良し,凸殻を超えて外挿する新しい理論的動機付け機構を組み込んだ補間相関注意(ECA)を提案する。
均質なデータ設定に挑戦するなど多種多様なベンチマークにおいて、ECAは一貫してPCC高原を破り、MSE性能を損なうことなく相関性を大幅に改善する。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - Conformal prediction for full and sparse polynomial chaos expansions [0.5735035463793009]
多項カオス拡張(PCE)は、代理モデルにおける効率的な計算性能で広く認識されている。
そこで本研究では,完全共形とJackknife+アプローチという2つの共形予測手法を,完全なPCEとスパースPCEの両方に統合する。
論文 参考訳(メタデータ) (2026-01-23T10:46:46Z) - Learning Causality for Longitudinal Data [1.2691047660244335]
この論文は、高次元の時間変化データにおける因果推論と因果表現学習の手法を開発する。
最初のコントリビューションは、個別処理効果(ITE)を推定するモデルであるCDVAE(Causal Dynamic Variational Autoencoder)の導入である。
第2のコントリビューションでは,Contrastive Predictive Coding (CPC) とInfoMaxによって強化された RNN に基づく長期的反事実回帰のための効率的なフレームワークを提案する。
第3のコントリビューションは、潜伏が観察された変数にどのように現れるかに対処することでCRLを前進させる。
論文 参考訳(メタデータ) (2025-12-04T16:51:49Z) - Composable Score-based Graph Diffusion Model for Multi-Conditional Molecular Generation [85.58520120011269]
本研究では,具体的スコアを用いてスコアマッチングを離散グラフに拡張するComposable Score-based Graph Diffusion Model (CSGD)を提案する。
CSGDは従来の手法よりも平均15.3%の制御性向上を実現していることを示す。
本研究は, 離散グラフ生成におけるスコアベースモデリングの実用的利点と, フレキシブルでマルチプロパタイトな分子設計のためのキャパシティを強調した。
論文 参考訳(メタデータ) (2025-09-11T13:37:56Z) - On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。
本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。
本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-12-27T20:29:47Z) - Conformal Risk Minimization with Variance Reduction [37.74931189657469]
コンフォーマル予測(CP)は、ブラックボックスモデルにおける確率的保証を達成するための分布自由フレームワークである。
最近の研究は、トレーニング中のCP効率の最適化に重点を置いている。
我々は、この概念を共形リスク最小化の問題として定式化する。
論文 参考訳(メタデータ) (2024-11-03T21:48:15Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss [43.39035144463951]
Momentum PL (MPL) は、ラベルのないデータに基づいてコネクショニスト時間分類 (CTC) に基づくモデルを訓練する。
CTCは、単純かつ高速な推論アルゴリズムと崩壊ラベルの生成に対する堅牢性のため、MPLやPLベースの半教師付きASRによく適している。
CTCに基づくモデリングの最近の進歩に触発されて、中間損失を導入し、MPLを強化することを提案する。
論文 参考訳(メタデータ) (2022-11-02T00:18:25Z) - A novel Deep Learning approach for one-step Conformal Prediction
approximation [0.7646713951724009]
Conformal Prediction (CP) は、最小限の制約を与えられた最大エラー率を保証する汎用的なソリューションである。
本稿では,従来の2ステップCPアプローチを1ステップで近似する新しい共形損失関数を提案する。
論文 参考訳(メタデータ) (2022-07-25T17:46:09Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。