Fugu-MT 論文翻訳(概要): SALMON: Self-Alignment with Principle-Following Reward Models

論文の概要: SALMON: Self-Alignment with Principle-Following Reward Models

arxiv url: http://arxiv.org/abs/2310.05910v1
Date: Mon, 9 Oct 2023 17:56:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-10 16:58:43.749001
Title: SALMON: Self-Alignment with Principle-Following Reward Models
Title（参考訳）: SALMON: 原則に従うリワードモデルによる自己調整
Authors: Zhiqing Sun, Yikang Shen, Hongxin Zhang, Qinhong Zhou, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
Abstract要約: 本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちのアプローチの中心は、原則に従う報酬モデルです。提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。
参考スコア（独自算出の注目度）: 84.31474052176343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Supervised Fine-Tuning (SFT) on response demonstrations combined with Reinforcement Learning from Human Feedback (RLHF) constitutes a powerful paradigm for aligning LLM-based AI agents. However, a significant limitation of such an approach is its dependency on high-quality human annotations, making its application to intricate tasks challenging due to difficulties in obtaining consistent response demonstrations and in-distribution response preferences. This paper presents a novel approach, namely SALMON (Self-ALignMent with principle-fOllowiNg reward models), to align base language models with minimal human supervision, using only a small set of human-defined principles, yet achieving superior performance. Central to our approach is a principle-following reward model. Trained on synthetic preference data, this model can generate reward scores based on arbitrary human-defined principles. By merely adjusting these principles during the RL training phase, we gain full control over the preferences with the reward model, subsequently influencing the behavior of the RL-trained policies, and eliminating the reliance on the collection of online human preferences. Applying our method to the LLaMA-2-70b base language model, we developed an AI assistant named Dromedary-2. With only 6 exemplars for in-context learning and 31 human-defined principles, Dromedary-2 significantly surpasses the performance of several state-of-the-art AI systems, including LLaMA-2-Chat-70b, on various benchmark datasets. We have open-sourced the code and model weights to encourage further research into aligning LLM-based AI agents with enhanced supervision efficiency, improved controllability, and scalable oversight.
Abstract（参考訳）: supervised fine-tuning (sft) on response demonstrations with reinforcement learning from human feedback (rlhf)は、llmベースのaiエージェントを調整するための強力なパラダイムである。しかし、このようなアプローチの重大な制限は、高品質な人的アノテーションに依存しているため、一貫性のある応答の実証や配布内応答の嗜好を得るのが難しいため、複雑なタスクに応用することが困難である。本稿では,基本言語モデルと最小限の人間の監督を両立させるための新しいアプローチであるサーモン(原則追従報酬モデルによる自己調整)を提案する。私たちのアプローチの中心は原則に従う報酬モデルです。このモデルは、合成選好データに基づいて、任意の人間定義原則に基づいて報酬スコアを生成することができる。 RLトレーニング期間中にこれらの原則を単に調整することで、報酬モデルによる嗜好を完全にコントロールし、その後、RLトレーニングされた政策の行動に影響を与え、オンライン人の嗜好の収集への依存をなくす。提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。コンテキスト内学習のための6つの例と31の人間定義原則によって、dromedary-2はさまざまなベンチマークデータセットでllama-2-chat-70bを含む最先端のaiシステムのパフォーマンスを大幅に上回っている。我々は、llmベースのaiエージェントの監視効率の向上、制御性の向上、スケーラブルな監視に関するさらなる研究を促進するために、コードとモデルの重み付けをオープンソース化しました。

関連論文リスト

A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文参考訳（メタデータ） (2025-04-07T11:34:48Z)
Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals? [33.11148546999906]
主な関心事は、テキスト構造収束(textitinstrumental convergence)である。AIシステムは、究極の目標を覆い、人間の意図した目標から逸脱する意図しない中間目標を開発する。この問題は特に強化学習(RL)訓練モデルに関係しており、報酬を最大化するために創造的だが意図しない戦略を生成することができる。また,RL駆動モデルでは,目標指向行動の最適化が人間の意図に反する可能性があるため,楽器収束の傾向が強いことを示す。
論文参考訳（メタデータ） (2025-02-16T16:29:20Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文参考訳（メタデータ） (2024-05-23T14:53:54Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-04T17:59:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。