論文の概要: On the Unreasonable Effectiveness of Last-layer Retraining
- arxiv url: http://arxiv.org/abs/2512.01766v1
- Date: Mon, 01 Dec 2025 15:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.912367
- Title: On the Unreasonable Effectiveness of Last-layer Retraining
- Title(参考訳): 最終層再訓練における不合理な有効性について
- Authors: John C. Hill, Tyler LaBonte, Xinchen Zhang, Vidya Muthukumar,
- Abstract要約: ラスト・レイヤ・リトレーニング(LLR)法は,スプリアス相関への依存を正すための効率的な手法として関心を集めている。
LLRはトレーニングセットの不均衡部分集合である場合でも、最悪のグループ精度を向上させることが判明した。
近年のアルゴリズムCB-LLRとAFRはグループバランスを暗黙的に行い、ロバスト性の向上を図っている。
- 参考スコア(独自算出の注目度): 11.989603982988344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Last-layer retraining (LLR) methods -- wherein the last layer of a neural network is reinitialized and retrained on a held-out set following ERM training -- have garnered interest as an efficient approach to rectify dependence on spurious correlations and improve performance on minority groups. Surprisingly, LLR has been found to improve worst-group accuracy even when the held-out set is an imbalanced subset of the training set. We initially hypothesize that this ``unreasonable effectiveness'' of LLR is explained by its ability to mitigate neural collapse through the held-out set, resulting in the implicit bias of gradient descent benefiting robustness. Our empirical investigation does not support this hypothesis. Instead, we present strong evidence for an alternative hypothesis: that the success of LLR is primarily due to better group balance in the held-out set. We conclude by showing how the recent algorithms CB-LLR and AFR perform implicit group-balancing to elicit a robustness improvement.
- Abstract(参考訳): ニューラルネットワークの最後のレイヤをERMトレーニング後の保留セットで再起動し、再トレーニングするLLR(Last-layer retraining)メソッドは、素早い相関への依存を是正し、少数派グループのパフォーマンスを改善するための効果的なアプローチとして関心を集めている。
驚くべきことに、LLRはトレーニングセットの不均衡部分集合である場合でも、最悪のグループ精度を向上させることが判明した。
当初我々は、LLRのこの「不合理な有効性」は、ホールドアウトセットを通して神経崩壊を緩和する能力によって説明され、ロバストネスの恩恵を受ける勾配降下の暗黙のバイアスをもたらすと仮定した。
私たちの経験的調査はこの仮説を支持していない。
代わりに、LLRの成功は主にホールドアウト集合におけるグループバランスの改善に起因するという、代替仮説の強い証拠を提示する。
我々は,最近のアルゴリズムCB-LLRとAFRがグループバランスを暗黙的に実行し,ロバスト性の向上を図った。
関連論文リスト
- From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-30T15:07:06Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering [50.63386303357225]
本稿では,ニューロンの活性化に選択的に介入することで推論信頼性を向上させる軽量なテストタイムフレームワークであるAdaRASを提案する。
AdaRASは、極性を意識した平均差基準を介してReasoning-Critical Neurons(RCN)を特定し、推論中にアクティベーションを適応的に制御する。
10の数学およびコーディングベンチマークの実験では、AIME-24とAIME-25の13%以上のゲインを含む一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-27T17:53:01Z) - Your Group-Relative Advantage Is Biased [74.57406620907797]
グループベースの学習手法は、学習評論家を避けるためにグループ相対的な優位性推定に依存する。
群相対的優位推定器は、真の(予想された)優位性に対して本質的に偏りがある。
適応的再重み付け方式であるヒストリー・アウェア適応困難度重み付け(HA-DW)を提案する。
論文 参考訳(メタデータ) (2026-01-13T13:03:15Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Adaptive Group Policy Optimization: Towards Stable Training and Token-Efficient Reasoning [6.417080496525403]
本稿では,適応的グループポリシー最適化(AGPO)を提案する。これは,適応的損失関数(adaptive loss function)を用いて,トレーニングのゆらぎとトークンの非効率を緩和する。
実験により,提案手法は推論ステップにおけるトークンを著しく少なくして,より安定した訓練と優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-20T08:48:57Z) - Annotation-Free Group Robustness via Loss-Based Resampling [3.355491272942994]
経験的リスク最小化による画像分類のためのニューラルネットワークのトレーニングは、予測のための因果的属性ではなく、突発的な属性に依存することに脆弱である。
トレーニングデータの小さな分割に対してERM事前学習モデルを評価することにより、データのグループ化を推測する。
水鳥とCelebAデータセットの様々なバージョンにおけるLFRの評価を行った。
論文 参考訳(メタデータ) (2023-12-08T08:22:02Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。