論文の概要: Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models
- arxiv url: http://arxiv.org/abs/2501.00418v1
- Date: Tue, 31 Dec 2024 12:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:14.953391
- Title: Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models
- Title(参考訳): 信頼の一般化 - 言語モデルにおける信頼の弱さ
- Authors: Martin Pawelczyk, Lillian Sun, Zhenting Qi, Aounon Kumar, Himabindu Lakkaraju,
- Abstract要約: より弱いモデルの出力を微調整した場合に、より強いモデルが信頼性特性を継承できるかどうかを検討する。
我々の研究は、弱強一般化の可能性と限界に関する貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 29.11210975481761
- License:
- Abstract: The rapid proliferation of generative AI, especially large language models, has led to their integration into a variety of applications. A key phenomenon known as weak-to-strong generalization - where a strong model trained on a weak model's outputs surpasses the weak model in task performance - has gained significant attention. Yet, whether critical trustworthiness properties such as robustness, fairness, and privacy can generalize similarly remains an open question. In this work, we study this question by examining if a stronger model can inherit trustworthiness properties when fine-tuned on a weaker model's outputs, a process we term weak-to-strong trustworthiness generalization. To address this, we introduce two foundational training strategies: 1) Weak Trustworthiness Finetuning (Weak TFT), which leverages trustworthiness regularization during the fine-tuning of the weak model, and 2) Weak and Weak-to-Strong Trustworthiness Finetuning (Weak+WTS TFT), which extends regularization to both weak and strong models. Our experimental evaluation on real-world datasets reveals that while some trustworthiness properties, such as fairness, adversarial, and OOD robustness, show significant improvement in transfer when both models were regularized, others like privacy do not exhibit signs of weak-to-strong trustworthiness. As the first study to explore trustworthiness generalization via weak-to-strong generalization, our work provides valuable insights into the potential and limitations of weak-to-strong generalization.
- Abstract(参考訳): 生成AIの急速な普及、特に大きな言語モデルにより、さまざまなアプリケーションに統合されている。
弱強一般化として知られる重要な現象は、弱いモデルの出力で訓練された強いモデルが、タスク性能の弱いモデルを超えるというものである。
しかし、ロバスト性、公正性、プライバシといった重要な信頼性特性が同じように一般化できるかどうかは、未解決の問題である。
本研究では,より弱いモデルの出力を微調整した場合に,より強いモデルが信頼性特性を継承できるかどうかを検討する。
これを解決するために,2つの基本的なトレーニング戦略を紹介します。
1)弱モデルの微調整中に信頼度規則化を利用する弱信頼度微調整(弱TFT)
2) Weak and Weak-to-Strong Trustworthiness Finetuning (Weak+WTS TFT)。
実世界のデータセットを実験的に評価したところ、公正性、敵対性、OODロバスト性などの信頼性特性は、両モデルが正規化されると大幅に向上するが、プライバシなどでは信頼性の弱い兆候は示さない。
弱強一般化による信頼性の一般化を探求する最初の研究として、弱強一般化の可能性と限界に関する貴重な洞察を提供する。
関連論文リスト
- Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Quantifying the Gain in Weak-to-Strong Generalization [14.453654853392619]
より弱いモデルよりも強いモデルによって達成される性能の向上は、弱いモデルによって生成されるラベル上の強モデルによって引き起こされる不適合誤差によって定量化されることを示す。
例えば、強いモデルが弱いモデルよりも改善する量を予測することができ、また、そのミスフィットエラーに基づいて、強いモデルをトレーニングするために異なる弱いモデルを選択することができる。
論文 参考訳(メタデータ) (2024-05-24T00:14:16Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities [37.14654106278984]
我々は,オープンソースのLarge Language Models (LLMs) の信頼性に対する敵意評価を行う。
本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。
我々の実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを網羅している。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - FRSUM: Towards Faithful Abstractive Summarization via Enhancing Factual
Robustness [56.263482420177915]
我々は,既存のシステムの忠実さを,事実的堅牢性という新たな視点から研究する。
本研究では,新たなトレーニング戦略,すなわちFRSUMを提案し,そのモデルに対して,暗黙の対角的サンプルと暗黙の対向的摂動の両方を防御するように指導する。
論文 参考訳(メタデータ) (2022-11-01T06:09:00Z) - Balancing Robustness and Sensitivity using Feature Contrastive Learning [95.86909855412601]
堅牢性を促進する方法は、希少なパターンや表現不足パターンに対するモデルの感受性を損なう可能性がある。
本稿では,より高次文脈的有用性を持つ機能に対して,モデルにより敏感な特徴を与える機能コントラスト学習(FCL)を提案する。
論文 参考訳(メタデータ) (2021-05-19T20:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。