論文の概要: Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning
- arxiv url: http://arxiv.org/abs/2410.12621v1
- Date: Wed, 16 Oct 2024 14:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:05.289139
- Title: Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning
- Title(参考訳): 安全・毒性・法的推論のパイロット研究
- Authors: Ruimeng Ye, Yang Xiao, Bo Hui,
- Abstract要約: 従来のアライメント手法は、微調整モデルへの人間のフィードバックに依存している。
人間の理解を超越したアウトプットを持つ超人的モデルには、大きな課題がある。
近年の研究では、より強力なモデルから知識を引き出すために弱いスーパーバイザーを使用している。
- 参考スコア(独自算出の注目度): 10.752609242505953
- License:
- Abstract: As large language models (LLMs) continue to advance, ensuring their alignment with human values becomes increasingly critical. Traditional alignment methods heavily rely on human feedback to fine-tune models. With the emergence of superhuman models whose outputs may surpass human understanding, evaluating and aligning these models using human judgments poses significant challenges. To address the challenges, recent works use weak supervisors to elicit knowledge from much stronger models. However, there are important disanalogies between the empirical setup in the existing works and the genuine goal of alignment. We remark that existing works investigate the phenomenon of weak-to-strong generation in analogous setup (i.e., binary classification), rather than practical alignment-relevant tasks (e.g., safety). In this paper, we bridge this gap by extending weak-to-strong generation to the context of practical alignment. We empirically demonstrate the widespread phenomenon of weak-to-strong generation in three complicated alignment tasks: safety, toxicity, and legal reasoning}. Furthermore, we explore efficient strategies for improving alignment performance to enhance the quality of model outcomes. Lastly, we summarize and analyze the challenges and potential solutions in regard to specific alignment tasks, which we hope to catalyze the research progress on the topic of weak-to-strong generalization. Our code is released at https://github.com/yeruimeng/WTS.git.
- Abstract(参考訳): 大きな言語モデル(LLM)が進歩を続けるにつれ、人間の価値との整合性を確保することがますます重要になる。
従来のアライメント手法は、微調整モデルに対する人間のフィードバックに大きく依存している。
人間の理解を超越したアウトプットを持つ超人的モデルが出現すると、人間の判断を用いてこれらのモデルを評価・調整することが大きな課題となる。
この課題に対処するため、近年の研究では、より強力なモデルから知識を引き出すために弱いスーパーバイザーを使用している。
しかし、既存の作品の実証的な設定と真のアライメントの目標との間には重要な相違点がある。
既存の研究は、実際のアライメント関連タスク(例えば安全性)よりも、類似のセットアップ(二分分類)における弱強生成の現象を調査している。
本稿では,弱い対強の世代を実践的アライメントの文脈に拡張することで,このギャップを埋める。
我々は、安全性、毒性、法的推論という3つの複雑なアライメントタスクにおいて、弱い対強な生成の広範な現象を実証的に示す。
さらに、アライメント性能を向上させるための効率的な戦略を探索し、モデル結果の品質を向上させる。
最後に,特定のアライメントタスクに関する課題と潜在的な解決策をまとめ,分析し,弱い対強の一般化のトピックについて研究の進展を触媒することを期待している。
私たちのコードはhttps://github.com/yeruimeng/WTS.git.comで公開されています。
関連論文リスト
- Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。
モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。
これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - Bayesian WeakS-to-Strong from Text Classification to Generation [14.897191979004782]
この研究は、人間の意見の多様性をシミュレートする弱いモデルのアンサンブルを探索することで、Weak-to-StrongからWeakS-to-Strongに拡張する。
信頼性スコアは、WeakS-to-Strong一般化を導くベイズ的アプローチを用いて推定される。
その結果,提案手法の有効性を学生モデルの信頼性に示し,スーパーアライメントの可能性を示した。
論文 参考訳(メタデータ) (2024-05-24T13:33:11Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - From Instructions to Intrinsic Human Values -- A Survey of Alignment
Goals for Big Models [48.326660953180145]
既存の作業におけるさまざまなアライメント目標の調査を行い、その進化経路を辿り、最も重要な目標を特定するのに役立ちます。
分析の結果,基本能力から価値指向への目標転換が明らかとなり,拡張LDMのアライメント目標として本質的な人的価値の可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-23T09:11:13Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - On the Opportunities and Risks of Foundation Models [256.61956234436553]
これらのモデルの基礎モデルは、批判的に中心的だが不完全な性格を根底から立証するものです。
本報告では,基礎モデルの可能性とリスクについて概説する。
これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文 参考訳(メタデータ) (2021-08-16T17:50:08Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z) - Opportunities and Challenges in Deep Learning Adversarial Robustness: A
Survey [1.8782750537161614]
本稿では,機械学習アルゴリズムの安全性を保証するために,強靭に訓練されたアルゴリズムを実装するための戦略について検討する。
我々は、敵の攻撃と防衛を分類し、ロバスト最適化問題をmin-max設定で定式化し、それを3つのサブカテゴリに分類する。
論文 参考訳(メタデータ) (2020-07-01T21:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。