論文の概要: Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision
- arxiv url: http://arxiv.org/abs/2403.09472v1
- Date: Thu, 14 Mar 2024 15:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:07:46.974961
- Title: Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision
- Title(参考訳): 使い勝手の良い一般化:人間のスーパービジョンを超えてスケーラブルなアライメント
- Authors: Zhiqing Sun, Longhui Yu, Yikang Shen, Weiyang Liu, Yiming Yang, Sean Welleck, Chuang Gan,
- Abstract要約: 現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
- 参考スコア(独自算出の注目度): 98.97575836717931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI alignment methodologies rely on human-provided demonstrations or judgments, and the learned capabilities of AI systems would be upper-bounded by human capabilities as a result. This raises a challenging research question: How can we keep improving the systems when their capabilities have surpassed the levels of humans? This paper answers this question in the context of tackling hard reasoning tasks (e.g., level 4-5 MATH problems) via learning from human annotations on easier tasks (e.g., level 1-3 MATH problems), which we term as \textit{easy-to-hard generalization}. Our key insight is that an evaluator (reward model) trained on supervisions for easier tasks can be effectively used for scoring candidate solutions of harder tasks and hence facilitating easy-to-hard generalization over different levels of tasks. Based on this insight, we propose a novel approach to scalable alignment, which firstly trains the process-supervised reward models on easy problems (e.g., level 1-3), and then uses them to evaluate the performance of policy models on hard problems. We show that such \textit{easy-to-hard generalization from evaluators} can enable \textit{easy-to-hard generalizations in generators} either through re-ranking or reinforcement learning (RL). Notably, our process-supervised 7b RL model achieves an accuracy of 34.0\% on MATH500, despite only using human supervision on easy problems. Our approach suggests a promising path toward AI systems that advance beyond the frontier of human supervision.
- Abstract(参考訳): 現在のAIアライメント手法は、人間が提供する実演や判断に依存しており、AIシステムの学習能力は、結果として人間の能力によって上界される。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
本稿では、簡単なタスク(例えば、レベル1-3 MATH問題)に関する人間のアノテーションから学習することで、難しい推論タスク(例えば、レベル4-5 MATH問題)に取り組むという文脈において、この問題に答える。
我々の重要な洞察は、より簡単なタスクに対する監督の訓練を受けた評価者(リワードモデル)が、難しいタスクの候補解のスコアリングに効果的に利用でき、それによって、様々なタスクのレベルに対して容易にハードな一般化が容易になるということです。
この知見に基づいて,まずプロセスが指示する報酬モデル(レベル1-3)を簡単な問題(例えば,レベル1-3)で訓練し,その上で,困難な問題に対するポリシーモデルの性能評価に利用する,スケーラブルなアライメント手法を提案する。
そこで,このような評価器からの強次一般化が,再ランク付けあるいは強化学習(RL)によって生成器内の強次一般化を可能にすることを示す。
特に, プロセス制御7b RLモデルでは, 簡単な問題に対して人的監督のみを用いるにもかかわらず, MATH500で34.0\%の精度を達成している。
我々のアプローチは、人間の監督のフロンティアを越えて進むAIシステムへの有望な道のりを示唆している。
関連論文リスト
- Some things to know about achieving artificial general intelligence [0.0]
現時点および予見可能なGenAIモデルは、人為的負債に悩まされているため、人工知能を達成できない。
十分に構造化された問題やアーキテクチャ、トレーニングデータを提供するには、人間の入力に大きく依存する。
彼らは全ての問題を言語パターン学習の問題とみなし、人工知能を実現するために必要な自律性は持っていない。
論文 参考訳(メタデータ) (2025-02-10T20:10:26Z) - Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks? [74.88417042125985]
複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。
ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。
また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-27T17:55:27Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II [0.5911087507716211]
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-11T21:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。