論文の概要: Double Preconditioning (DoPr): Optimization for Test-Time Performance, not Validation Loss
- arxiv url: http://arxiv.org/abs/2606.06418v1
- Date: Thu, 04 Jun 2026 17:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.993504
- Title: Double Preconditioning (DoPr): Optimization for Test-Time Performance, not Validation Loss
- Title(参考訳): ダブルプレコンディショニング(DoPr): 検証損失ではなくテスト時間性能の最適化
- Authors: Thomas T. Zhang, Alok Shah, Yifei Zhang, Vincent Zhang, Nikolai Matni, Max Simchowitz,
- Abstract要約: ダブルプレコンディショニング(DoPr)と呼ばれる新しい最適化パラダイムを導入する。
DoPr は、Adam や Muon のようにグラデーションワイドプレコンディショニングとアクティベーションワイドプレコンディショニング(AP)を組み合わせている。
我々は、APの追加により、様々なテスト時間設定でダウンストリームモデルの性能を向上させるために、ドロップインの介入が得られることを示す。
- 参考スコア(独自算出の注目度): 26.33868416147844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many modern applications of deep learning involve training a neural network via a one-step prediction loss (e.g., $L^2$ regression, cross-entropy), but deploy the network by rolling out along its own predictions. Key examples include autoregressive language modeling, flow-based generative modeling, and robot policy learning. It is well-documented that these settings induce a phenomenon we call test-time feedback (TTF): the mismatch between the training/validation loss and downstream metrics of interest, such as task success rate and generation quality, which grows with task length. While data curation, architecture, and objective design have been proposed to combat train-test shift in TTF settings, this paper proposes optimization as a new design axis to mitigate error accumulation. Specifically, we introduce a new optimization paradigm called double-preconditioning (DoPr) uniquely tailored to the challenges of TTF. DoPr combines gradient-wise preconditioning, as in Adam and Muon, with activation-wise preconditioning (AP), such as in KFAC. We show that the addition of AP yields a drop-in intervention for increasing downstream model performance across a range of TTF settings. Interestingly, these gains in test-time performance do not consistently accompany improvements in validation loss, opening new questions about how to properly evaluate models trained with one-step supervised objectives.
- Abstract(参考訳): ディープラーニングの現代的な応用の多くは、1ステップの予測損失(例えば、$L^2$回帰、クロスエントロピー)を通じてニューラルネットワークをトレーニングするが、独自の予測に沿ってロールアウトすることでネットワークをデプロイする。
主な例としては、自動回帰言語モデリング、フローベース生成モデリング、ロボットポリシー学習などがある。
これらの設定がテストタイムフィードバック(TTF)と呼ばれる現象を引き起こすことは、よく文書化されています。これは、トレーニング/検証損失と、タスクの成功率や生成品質といった、タスクの長さとともに成長する、関心の下流メトリクスのミスマッチです。
データキュレーション, アーキテクチャ, 客観的設計は, TTF設定における列車試験のシフトに対処するために提案されているが, 本論文では誤りの蓄積を緩和するための新しい設計軸として, 最適化を提案する。
具体的には、TTFの課題に合わせて、Double-preconditioning (DoPr)と呼ばれる新しい最適化パラダイムを導入する。
DoPr は、Adam や Muon のような勾配方向の事前条件と KFAC のような活性化方向の事前条件(AP)を組み合わせる。
我々は、APの追加により、TTF設定の範囲でダウンストリームモデルの性能を向上させるために、ドロップインの介入が生じることを示す。
興味深いことに、これらのテストタイムのパフォーマンス向上は、検証損失の改善を継続的に伴わない。
関連論文リスト
- Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Amortized Predictability-aware Training Framework for Time Series Forecasting and Classification [10.816479922364097]
時系列予測 (TSF) と時系列分類 (TSC) の双方に対して, 一般的なアモータイズ予測可能性を考慮したトレーニングフレームワーク (APTF) を提案する。
APTFは2つの重要な設計を導入し、予測可能性の低いモデルから適切な学習をしながら、モデルが高い予測可能性のサンプルに集中できるようにする。
論文 参考訳(メタデータ) (2026-02-18T06:59:05Z) - Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training [11.179110411255708]
トレーニング予算からベンチマークパフォーマンスのスケーリングをモデル化するための直接的なフレームワークを提案する。
その結果, 直接的アプローチは従来提案していた2段階の手順よりも優れていることがわかった。
事前学習損失と下流評価結果の完全なセットを公表する。
論文 参考訳(メタデータ) (2025-12-09T18:33:48Z) - Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [42.608899417822656]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。