論文の概要: Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
- arxiv url: http://arxiv.org/abs/2406.11431v2
- Date: Tue, 08 Oct 2024 15:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:05.330462
- Title: Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
- Title(参考訳): 超(表面)配向:強モデルが弱-強一般化の弱モデルに影響を及ぼす可能性がある
- Authors: Wenkai Yang, Shiqi Shen, Guangyao Shen, Wei Yao, Yong Liu, Zhi Gong, Yankai Lin, Ji-Rong Wen,
- Abstract要約: 弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
- 参考スコア(独自算出の注目度): 68.62228569439478
- License:
- Abstract: Superalignment, where humans act as weak supervisors for superhuman models, has become a crucial problem with the rapid development of Large Language Models (LLMs). Recent work has preliminarily studied this problem by using weak models to supervise strong models, and discovered that weakly supervised strong students can consistently outperform weak teachers towards the alignment target, leading to a weak-to-strong generalization phenomenon. However, we are concerned that behind such a promising phenomenon, whether there exists an issue of weak-to-strong deception, where strong models deceive weak models by exhibiting well-aligned in areas known to weak models but producing misaligned behaviors in cases weak models do not know. We take an initial step towards exploring this security issue in a specific but realistic multi-objective alignment case, where there may be some alignment targets conflicting with each other (e.g., helpfulness v.s. harmlessness). We aim to explore whether, in such cases, strong models might deliberately make mistakes in areas known to them but unknown to weak models within one alignment dimension, in exchange for a higher reward in another dimension. Through extensive experiments in both the reward modeling and preference optimization scenarios, we find: (1) The weak-to-strong deception phenomenon exists across all settings. (2) The deception intensifies as the capability gap between weak and strong models increases. (3) Bootstrapping with an intermediate model can mitigate the deception to some extent, though its effectiveness remains limited. Our work highlights the urgent need to pay more attention to the true reliability of superalignment.
- Abstract(参考訳): 超人モデルにおいて人間が弱い監督者として振る舞うスーパーアライメントは、大規模言語モデル(LLM)の急速な発展において重要な問題となっている。
近年の研究では、弱いモデルを用いて強いモデルを監督することでこの問題を未熟に研究しており、弱い教師が弱い教師を常にアライメント目標に向かって上回り、弱々しい一般化現象をもたらすことが判明している。
しかし、このような有望な現象の背景には、強いモデルが弱いモデルとして知られる領域でうまく整列するが、弱いモデルが知らない場合には不整合な振る舞いを生じさせることで、弱いモデルを欺く弱いモデルが存在するかどうかが懸念されている。
我々は、このセキュリティ問題を、具体的だが現実的な多目的アライメントのケースで探求するための最初の一歩を踏み出し、そこでは、互いに衝突するアライメントターゲットが存在するかもしれない(例えば、有用性対無害性)。
そのような場合、強いモデルが、あるアライメント次元内の弱いモデルに対して、ある次元におけるより高い報酬と引き換えに、故意にそれらの既知の領域で誤りを犯すかどうかを検討することを目的としている。
報奨モデルと選好最適化の両方のシナリオにおける広範な実験を通して、(1)弱い着想現象は全ての設定にわたって存在することがわかった。
2) 弱いモデルと強いモデルの間の能力ギャップが増大するにつれて, 偽造は増大する。
(3) 中間モデルによるブートストラッピングは, 有効性は限定されているものの, ある程度の偽造を緩和することができる。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
関連論文リスト
- Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning [10.752609242505953]
従来のアライメント手法は、微調整モデルへの人間のフィードバックに依存している。
人間の理解を超越したアウトプットを持つ超人的モデルには、大きな課題がある。
近年の研究では、より強力なモデルから知識を引き出すために弱いスーパーバイザーを使用している。
論文 参考訳(メタデータ) (2024-10-16T14:40:32Z) - Effects of Scale on Language Model Robustness [7.725206196110384]
逆向きに訓練された大規模モデルは、より小さなモデルと比較して、訓練中に見えないような攻撃に対して、より速く、より良く一般化できることが示される。
また、計算量の増加による悪用/防御のバランスを分析し、ある設定で同等性を見つけ、他の設定で悪用する利点を見つけます。
論文 参考訳(メタデータ) (2024-07-25T17:26:41Z) - Quantifying the Gain in Weak-to-Strong Generalization [14.453654853392619]
より弱いモデルよりも強いモデルによって達成される性能の向上は、弱いモデルによって生成されるラベル上の強モデルによって引き起こされる不適合誤差によって定量化されることを示す。
例えば、強いモデルが弱いモデルよりも改善する量を予測することができ、また、そのミスフィットエラーに基づいて、強いモデルをトレーニングするために異なる弱いモデルを選択することができる。
論文 参考訳(メタデータ) (2024-05-24T00:14:16Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Rethinking Robustness of Model Attributions [24.317595434521504]
多くの属性手法は脆弱であり,これらの手法やモデルトレーニングの改良が提案されている。
まず、ロバスト性に関する既存の指標は、アトリビューションにおける合理的な局所的なシフトを過度に負担する。
本稿では,ロバストネス指標における画素の局所性と属性における画素位置の多様性を組み込んだ既存メトリクスと属性手法の簡易な強化手法を提案する。
論文 参考訳(メタデータ) (2023-12-16T20:20:38Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z) - Orthogonal Deep Models As Defense Against Black-Box Attacks [71.23669614195195]
攻撃者が標的モデルに類似したモデルを用いて攻撃を発生させるブラックボックス設定における深層モデル固有の弱点について検討する。
本稿では,深部モデルの内部表現を他のモデルに直交させる新しい勾配正規化手法を提案する。
様々な大規模モデルにおいて,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-06-26T08:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。