論文の概要: Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision
- arxiv url: http://arxiv.org/abs/2403.09472v1
- Date: Thu, 14 Mar 2024 15:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:07:46.974961
- Title: Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision
- Title(参考訳): 使い勝手の良い一般化:人間のスーパービジョンを超えてスケーラブルなアライメント
- Authors: Zhiqing Sun, Longhui Yu, Yikang Shen, Weiyang Liu, Yiming Yang, Sean Welleck, Chuang Gan,
- Abstract要約: 現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
- 参考スコア(独自算出の注目度): 98.97575836717931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI alignment methodologies rely on human-provided demonstrations or judgments, and the learned capabilities of AI systems would be upper-bounded by human capabilities as a result. This raises a challenging research question: How can we keep improving the systems when their capabilities have surpassed the levels of humans? This paper answers this question in the context of tackling hard reasoning tasks (e.g., level 4-5 MATH problems) via learning from human annotations on easier tasks (e.g., level 1-3 MATH problems), which we term as \textit{easy-to-hard generalization}. Our key insight is that an evaluator (reward model) trained on supervisions for easier tasks can be effectively used for scoring candidate solutions of harder tasks and hence facilitating easy-to-hard generalization over different levels of tasks. Based on this insight, we propose a novel approach to scalable alignment, which firstly trains the process-supervised reward models on easy problems (e.g., level 1-3), and then uses them to evaluate the performance of policy models on hard problems. We show that such \textit{easy-to-hard generalization from evaluators} can enable \textit{easy-to-hard generalizations in generators} either through re-ranking or reinforcement learning (RL). Notably, our process-supervised 7b RL model achieves an accuracy of 34.0\% on MATH500, despite only using human supervision on easy problems. Our approach suggests a promising path toward AI systems that advance beyond the frontier of human supervision.
- Abstract(参考訳): 現在のAIアライメント手法は、人間が提供する実演や判断に依存しており、AIシステムの学習能力は、結果として人間の能力によって上界される。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
本稿では、簡単なタスク(例えば、レベル1-3 MATH問題)に関する人間のアノテーションから学習することで、難しい推論タスク(例えば、レベル4-5 MATH問題)に取り組むという文脈において、この問題に答える。
我々の重要な洞察は、より簡単なタスクに対する監督の訓練を受けた評価者(リワードモデル)が、難しいタスクの候補解のスコアリングに効果的に利用でき、それによって、様々なタスクのレベルに対して容易にハードな一般化が容易になるということです。
この知見に基づいて,まずプロセスが指示する報酬モデル(レベル1-3)を簡単な問題(例えば,レベル1-3)で訓練し,その上で,困難な問題に対するポリシーモデルの性能評価に利用する,スケーラブルなアライメント手法を提案する。
そこで,このような評価器からの強次一般化が,再ランク付けあるいは強化学習(RL)によって生成器内の強次一般化を可能にすることを示す。
特に, プロセス制御7b RLモデルでは, 簡単な問題に対して人的監督のみを用いるにもかかわらず, MATH500で34.0\%の精度を達成している。
我々のアプローチは、人間の監督のフロンティアを越えて進むAIシステムへの有望な道のりを示唆している。
関連論文リスト
- Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Operationalising Responsible AI Using a Pattern-Oriented Approach: A
Case Study on Chatbots in Financial Services [11.33499498841489]
責任AI(Responsible AI)は、人間、社会、環境に利益をもたらす方法でAIシステムを開発し、利用するプラクティスである。
さまざまな責任あるAI原則が最近リリースされたが、これらの原則は非常に抽象的で実用的ではない。
ギャップを埋めるために、パターン指向のアプローチを採用し、責任あるAIパターンカタログを構築します。
論文 参考訳(メタデータ) (2023-01-03T23:11:03Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II [0.5911087507716211]
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-11T21:53:11Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - A Novel Automated Curriculum Strategy to Solve Hard Sokoban Planning
Instances [30.32386551923329]
本稿では,1つの難題を解決するためのカリキュラム駆動型学習手法を提案する。
タスクの硬さの滑らかさが最終学習結果にどのように影響するかを示す。
われわれのアプローチは、これまでの最先端のSokobanソルバには及ばないプランを明らかにすることができる。
論文 参考訳(メタデータ) (2021-10-03T00:44:50Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - Leveraging Rationales to Improve Human Task Performance [15.785125079811902]
計算システムの性能が人間のユーザを上回ることを考えれば、人間のパフォーマンスを改善するために説明可能なAI能力を活用することができるだろうか?
本稿では,ユーティリティベースの計算手法の合理性を自動生成するRationale-Generating Algorithmを紹介する。
以上の結果から,本手法は人事性能の統計的改善につながる有理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2020-02-11T04:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。