Fugu-MT 論文翻訳(概要): Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning

論文の概要: Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning

arxiv url: http://arxiv.org/abs/2410.12621v1
Date: Wed, 16 Oct 2024 14:40:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.364938
Title: Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning
Title（参考訳）: 安全・毒性・法的推論のパイロット研究
Authors: Ruimeng Ye, Yang Xiao, Bo Hui,
Abstract要約: 従来のアライメント手法は、微調整モデルへの人間のフィードバックに依存している。人間の理解を超越したアウトプットを持つ超人的モデルには、大きな課題がある。近年の研究では、より強力なモデルから知識を引き出すために弱いスーパーバイザーを使用している。
参考スコア（独自算出の注目度）: 10.752609242505953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) continue to advance, ensuring their alignment with human values becomes increasingly critical. Traditional alignment methods heavily rely on human feedback to fine-tune models. With the emergence of superhuman models whose outputs may surpass human understanding, evaluating and aligning these models using human judgments poses significant challenges. To address the challenges, recent works use weak supervisors to elicit knowledge from much stronger models. However, there are important disanalogies between the empirical setup in the existing works and the genuine goal of alignment. We remark that existing works investigate the phenomenon of weak-to-strong generation in analogous setup (i.e., binary classification), rather than practical alignment-relevant tasks (e.g., safety). In this paper, we bridge this gap by extending weak-to-strong generation to the context of practical alignment. We empirically demonstrate the widespread phenomenon of weak-to-strong generation in three complicated alignment tasks: safety, toxicity, and legal reasoning}. Furthermore, we explore efficient strategies for improving alignment performance to enhance the quality of model outcomes. Lastly, we summarize and analyze the challenges and potential solutions in regard to specific alignment tasks, which we hope to catalyze the research progress on the topic of weak-to-strong generalization. Our code is released at https://github.com/yeruimeng/WTS.git.
Abstract（参考訳）: 大きな言語モデル(LLM)が進歩を続けるにつれ、人間の価値との整合性を確保することがますます重要になる。従来のアライメント手法は、微調整モデルに対する人間のフィードバックに大きく依存している。人間の理解を超越したアウトプットを持つ超人的モデルが出現すると、人間の判断を用いてこれらのモデルを評価・調整することが大きな課題となる。この課題に対処するため、近年の研究では、より強力なモデルから知識を引き出すために弱いスーパーバイザーを使用している。しかし、既存の作品の実証的な設定と真のアライメントの目標との間には重要な相違点がある。既存の研究は、実際のアライメント関連タスク(例えば安全性)よりも、類似のセットアップ(二分分類)における弱強生成の現象を調査している。本稿では,弱い対強の世代を実践的アライメントの文脈に拡張することで,このギャップを埋める。我々は、安全性、毒性、法的推論という3つの複雑なアライメントタスクにおいて、弱い対強な生成の広範な現象を実証的に示す。さらに、アライメント性能を向上させるための効率的な戦略を探索し、モデル結果の品質を向上させる。最後に,特定のアライメントタスクに関する課題と潜在的な解決策をまとめ,分析し,弱い対強の一般化のトピックについて研究の進展を触媒することを期待している。私たちのコードはhttps://github.com/yeruimeng/WTS.git.comで公開されています。

関連論文リスト

Emergent Abilities in Large Language Models: A Survey [9.50669909278749]
大規模言語モデル(LLM)は、人工知能への最も有望な研究の流れの1つとして、新しい技術革命を導いている。これらのモデルのスケーリングは、以前は観測されていなかった様々な創発的能力と関連付けられている。これらの能力は、高度な推論やコンテキスト内学習からコーディングや問題解決まで多岐にわたる。トランスフォーメーションの可能性にもかかわらず、創発的能力は未理解のままであり、定義、性質、予測可能性、含意について誤解を招く。
論文参考訳（メタデータ） (2025-02-28T01:20:01Z)
Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文参考訳（メタデータ） (2025-02-17T15:28:40Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。 OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文参考訳（メタデータ） (2025-01-21T05:36:13Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文参考訳（メタデータ） (2024-06-17T11:36:39Z)
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文参考訳（メタデータ） (2024-06-04T07:43:33Z)
Bayesian WeakS-to-Strong from Text Classification to Generation [14.897191979004782]
この研究は、人間の意見の多様性をシミュレートする弱いモデルのアンサンブルを探索することで、Weak-to-StrongからWeakS-to-Strongに拡張する。信頼性スコアは、WeakS-to-Strong一般化を導くベイズ的アプローチを用いて推定される。その結果,提案手法の有効性を学生モデルの信頼性に示し,スーパーアライメントの可能性を示した。
論文参考訳（メタデータ） (2024-05-24T13:33:11Z)
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文参考訳（メタデータ） (2024-02-06T06:30:34Z)
From Instructions to Intrinsic Human Values -- A Survey of Alignment Goals for Big Models [48.326660953180145]
既存の作業におけるさまざまなアライメント目標の調査を行い、その進化経路を辿り、最も重要な目標を特定するのに役立ちます。分析の結果,基本能力から価値指向への目標転換が明らかとなり,拡張LDMのアライメント目標として本質的な人的価値の可能性が示唆された。
論文参考訳（メタデータ） (2023-08-23T09:11:13Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
On the Opportunities and Risks of Foundation Models [256.61956234436553]
これらのモデルの基礎モデルは、批判的に中心的だが不完全な性格を根底から立証するものです。本報告では,基礎モデルの可能性とリスクについて概説する。これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文参考訳（メタデータ） (2021-08-16T17:50:08Z)
Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。 Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文参考訳（メタデータ） (2020-08-20T17:34:15Z)
Opportunities and Challenges in Deep Learning Adversarial Robustness: A Survey [1.8782750537161614]
本稿では,機械学習アルゴリズムの安全性を保証するために,強靭に訓練されたアルゴリズムを実装するための戦略について検討する。我々は、敵の攻撃と防衛を分類し、ロバスト最適化問題をmin-max設定で定式化し、それを3つのサブカテゴリに分類する。
論文参考訳（メタデータ） (2020-07-01T21:00:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。