論文の概要: Improving Weak-to-Strong Generalization with Reliability-Aware Alignment
- arxiv url: http://arxiv.org/abs/2406.19032v1
- Date: Thu, 27 Jun 2024 09:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:37:31.688604
- Title: Improving Weak-to-Strong Generalization with Reliability-Aware Alignment
- Title(参考訳): 信頼性を考慮した弱相関一般化の改良
- Authors: Yue Guo, Yi Yang,
- Abstract要約: 大規模言語モデル(LLM)は、多くの自然言語タスクにおいて急速に進歩し、人間の能力を上回っている。
「超配向」問題には弱強一般化の強化が必要である。
本稿では、弱い監視信号の信頼性を伴って、弱い対強の一般化を改善する手法を提案する。
- 参考スコア(独自算出の注目度): 22.754757518792395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are now rapidly advancing and surpassing human abilities on many natural language tasks. However, aligning these super-human LLMs with human knowledge remains challenging because the supervision signals from human annotators may be wrong. This issue, known as the "super-alignment" problem, requires enhancing weak-to-strong generalization, where a strong LLM must generalize from imperfect supervision provided by a weaker source. To address this issue, we propose an approach to improve weak-to-strong generalization by involving the reliability of weak supervision signals in the alignment process. In our method, we query the weak supervisor for multiple answers, estimate the answer reliability, and enhance the alignment process by filtering out uncertain data or re-weighting reliable data. Experiments on four datasets demonstrate that our methods effectively identify the quality of weak labels and significantly enhance weak-to-strong generalization. Our work presents effective techniques for error-robust model alignment, reducing error propagation from noisy supervision and enhancing the accuracy and reliability of LLMs. Codes are publicly available at http://github.com/Irenehere/ReliableAlignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現在、多くの自然言語タスクにおいて、人間の能力を超え、急速に進歩している。
しかし、これらの超人的LLMを人間の知識と整合させることは、人間のアノテータからの監視信号が間違っている可能性があるため、依然として困難である。
この問題は「スーパーアライメント(super-alignment)」問題と呼ばれ、弱いソースによって提供される不完全な監督から強いLCMが一般化されなければならない弱強一般化の強化を必要とする。
この問題に対処するために、アライメントプロセスにおいて弱い監視信号の信頼性を伴って、弱い対強の一般化を改善するアプローチを提案する。
提案手法では,複数の回答に対して弱いスーパーバイザに問い合わせ,回答の信頼性を推定し,不確実なデータをフィルタリングしたり,信頼性のあるデータを再重み付けすることでアライメントプロセスを強化する。
4つのデータセットを用いた実験により, 弱いラベルの品質を効果的に同定し, 弱いラベルの一般化を著しく向上することが示された。
本研究は, 故障モデルアライメント, ノイズ制御による誤差伝搬の低減, LLMの精度, 信頼性向上に有効な手法を提案する。
コードはhttp://github.com/Irenehere/ReliableAlignment.comで公開されている。
関連論文リスト
- Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning [10.752609242505953]
従来のアライメント手法は、微調整モデルへの人間のフィードバックに依存している。
人間の理解を超越したアウトプットを持つ超人的モデルには、大きな課題がある。
近年の研究では、より強力なモデルから知識を引き出すために弱いスーパーバイザーを使用している。
論文 参考訳(メタデータ) (2024-10-16T14:40:32Z) - EnsemW2S: Can an Ensemble of LLMs be Leveraged to Obtain a Stronger LLM? [28.43206274079919]
弱強(w2s)一般化に対する革新的アプローチを提案する。
より単純なタスクで訓練された弱いモデルは、より複雑なタスクでより強力なモデルを協調的に監督することを示します。
既存のベースラインよりも最大14%向上し、バイナリ分類および生成タスクでは平均5%と4%改善した。
論文 参考訳(メタデータ) (2024-10-06T18:06:42Z) - Your Weak LLM is Secretly a Strong Teacher for Alignment [19.33906256866585]
既存のアライメントフレームワークは、高価な人的労力または高い計算コストの形で制約を提示します。
本稿では,上位層モデルよりも資源集約度が低い弱いLLMを用いた,有望な中間層を探索する。
弱いLLMは、完全に注釈付けされたデータに匹敵する、あるいは超えるフィードバックを提供することができる。
論文 参考訳(メタデータ) (2024-09-13T13:24:52Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - A statistical framework for weak-to-strong generalization [38.55982453315567]
LLMが超人的能力と人間的フィードバックとの整合性(強弱性)を、その能力を損なうことなく達成できるかどうかは不明である。
これは弱い(非有能な)フィードバックを使ってより強い(より有能な)モデルを訓練する弱い(非有能な)一般化問題の例である。
我々は、事前学習されたLLMから潜在知識を引き出すことにより、弱強一般化が可能であることを証明した。
論文 参考訳(メタデータ) (2024-05-25T13:54:05Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Fine-Tuning Pre-trained Language Model with Weak Supervision: A
Contrastive-Regularized Self-Training Approach [46.76317056976196]
微調整事前訓練言語モデル(LM)は多くの自然言語処理(NLP)タスクで大きな成功を収めた。
ラベル付きデータなしで、弱い監督のみを用いて、微調整済みのLMの問題について検討する。
我々は、微調整型LMを低監督で実現するために、対照的な自己学習フレームワークであるCOSINEを開発した。
論文 参考訳(メタデータ) (2020-10-15T15:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。