論文の概要: The Mechanism of Weak-to-Strong Generalization: Feature Elicitation from Latent Knowledge
- arxiv url: http://arxiv.org/abs/2605.12908v1
- Date: Wed, 13 May 2026 02:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.765747
- Title: The Mechanism of Weak-to-Strong Generalization: Feature Elicitation from Latent Knowledge
- Title(参考訳): 弱々しい一般化のメカニズム--潜在知識からの特徴抽出
- Authors: Ryoya Awano, Taiji Suzuki,
- Abstract要約: Weak-to-strong(W2S)の一般化は、AIシステムの整合性に対するアプローチとして提案されている。
We study W2S in the setting of reward-model learning with two-layer neural network。
本研究は,本モデルが課題$$を効率よく学習し,汎用性を維持しつつ,事前学習した知識を抽出することを証明する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weak-to-strong (W2S) generalization, in which a strong model is fine-tuned on outputs of a weaker, task-specialized model, has been proposed as an approach to aligning superhuman AI systems. Existing theoretical analyses either fix the student's representations or operate in restricted settings. Whether multi-step SGD can succeed in feature learning while preserving diverse pre-trained capabilities remains open. We study W2S in the setting of reward-model learning with two-layer neural networks. The strong model has pre-trained representations organized into low-dimensional subspaces $V_k$, and is fine-tuned under the supervision of a weak model specialized on task $κ$. We prove that the strong model efficiently learns task $κ$, eliciting its pre-trained knowledge while retaining general capabilities. This establishes W2S generalization in the feature-learning regime, in the sense that the strong model acquires the target feature direction through W2S training, rather than having it given a priori. Moreover, W2S preserves pre-trained off-target features, whereas standard supervised fine-tuning causes catastrophic forgetting when off-target feature directions are correlated with the target's. Numerical experiments on synthetic data confirm our theoretical results.
- Abstract(参考訳): W2S(Weak-to-strong)の一般化は、より弱いタスク特化モデルの出力に基づいて強いモデルを微調整し、超人的AIシステムの整合に対するアプローチとして提案されている。
既存の理論的分析は、生徒の表現を固定するか、制限された設定で操作するかのいずれかである。
多様な事前学習能力を維持しながら、多段階のSGDが機能学習に成功できるかは、未解決のままである。
We study W2S in the setting of reward-model learning with two-layer neural network。
強モデルは、低次元部分空間$V_k$に事前訓練された表現を持ち、タスク$κ$を専門とする弱いモデルの監督の下で微調整される。
強モデルがタスク$κ$を効率的に学習し、その事前学習された知識を一般の能力を保ちながら引き出すことを証明した。
このことは,W2S の事前学習よりも,W2S のトレーニングを通じて,強いモデルが目標特徴の方向を取得するという意味で,特徴学習体制における W2S の一般化を確立している。
さらに、W2Sは訓練済みの目標外特徴を保存するが、標準的な教師付き微調整は目標外特徴方向が目標と相関している場合に破滅的な忘れを生じさせる。
合成データの数値実験により理論的結果が確認された。
関連論文リスト
- On the Blessing of Pre-training in Weak-to-Strong Generalization [38.765691061220686]
我々は、W2SG(Wak-to-Strong Generalization)の出現の前提条件として事前学習を定めている。
We demonstrate that W2SG is a innate capabilities, but through a phase transition along with pre-training。
論文 参考訳(メタデータ) (2026-05-07T05:55:10Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models [26.393123295267642]
W2SG(Wak-to-Strong generalization)は、弱いモデルから監督された強いモデルの完全な能力を引き出す新しい傾向である。
我々は、弱いモデルによって生成された中間作用の軌跡を持つ強いモデルを微調整する。
我々の経験的評価は、多種多様なタスク領域にわたる推論と意思決定能力を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-07-25T00:17:09Z) - On Weak-to-Strong Generalization and f-Divergence [23.062111583403095]
W2SG(Weak-to-strong generalization)は、強力な事前学習モデルの能力を刺激するための有望なパラダイムとして登場した。
W2SGにおける情報理論損失関数フレームワークとして$f$-divergenceを導入する。
我々は、KL分散のような広く使われているメトリクスを一般化する$f$-divergence損失が、実際に強いモデルの一般化と耐雑音性を効果的に改善することを示した。
論文 参考訳(メタデータ) (2025-06-03T17:40:08Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。