論文の概要: Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision
- arxiv url: http://arxiv.org/abs/2305.03047v1
- Date: Thu, 4 May 2023 17:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:19:06.989364
- Title: Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision
- Title(参考訳): 最小限の人間の監督によるスクラッチからの言語モデルの原則駆動型自己調整
- Authors: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen,
David Cox, Yiming Yang, Chuang Gan
- Abstract要約: ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 74.01930585052945
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised
fine-tuning (SFT) with human annotations and reinforcement learning from human
feedback (RLHF) to align the output of large language models (LLMs) with human
intentions, ensuring they are helpful, ethical, and reliable. However, this
dependence can significantly constrain the true potential of AI-assistant
agents due to the high cost of obtaining human supervision and the related
issues on quality, reliability, diversity, self-consistency, and undesirable
biases. To address these challenges, we propose a novel approach called
SELF-ALIGN, which combines principle-driven reasoning and the generative power
of LLMs for the self-alignment of AI agents with minimal human supervision. Our
approach encompasses four stages: first, we use an LLM to generate synthetic
prompts, and a topic-guided method to augment the prompt diversity; second, we
use a small set of human-written principles for AI models to follow, and guide
the LLM through in-context learning from demonstrations (of principles
application) to produce helpful, ethical, and reliable responses to user's
queries; third, we fine-tune the original LLM with the high-quality
self-aligned responses so that the resulting model can generate desirable
responses for each query directly without the principle set and the
demonstrations anymore; and finally, we offer a refinement step to address the
issues of overly-brief or indirect responses. Applying SELF-ALIGN to the
LLaMA-65b base language model, we develop an AI assistant named Dromedary. With
fewer than 300 lines of human annotations (including < 200 seed prompts, 16
generic principles, and 5 exemplars for in-context learning). Dromedary
significantly surpasses the performance of several state-of-the-art AI systems,
including Text-Davinci-003 and Alpaca, on benchmark datasets with various
settings.
- Abstract(参考訳): ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションによる教師付き微調整(SFT)と人間のフィードバックからの強化学習(RLHF)を主に頼りにしており、大きな言語モデル(LLM)の出力と人間の意図を一致させ、それらが有益で倫理的で信頼性の高いものであることを保証している。
しかし、この依存は、人間の監督を得るための高いコストと、品質、信頼性、多様性、自己矛盾、望ましくないバイアスに関する関連する問題のために、aiアシスタントエージェントの真のポテンシャルを著しく制限することができる。
これらの課題に対処するため,本研究では,AIエージェントの自己調整のための原則駆動推論とLLMの生成能力を組み合わせた,SELF-ALIGNという新しいアプローチを提案する。
Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses.
また,SELF-ALIGNをLLaMA-65bベース言語モデルに適用し,DromedaryというAIアシスタントを開発した。
300行未満の人間のアノテーション(200行以上のシードプロンプト、16のジェネリック原則、インコンテキスト学習のための5つの例を含む)を持つ。
Dromedaryは、さまざまな設定のベンチマークデータセット上で、Text-Davinci-003やAlpacaなど、最先端のAIシステムのパフォーマンスを大幅に上回る。
関連論文リスト
- Can We Trust AI Agents? An Experimental Study Towards Trustworthy LLM-Based Multi-Agent Systems for AI Ethics [10.084913433923566]
本研究では,信頼度向上技術が倫理的AI出力生成に与える影響について検討する。
我々はLLM-BMASのプロトタイプを設計し、エージェントは現実世界の倫理的AI問題に関する構造化された議論を行う。
議論では、バイアス検出、透明性、説明責任、ユーザの同意、コンプライアンス、公正性評価、EU AI Actコンプライアンスといった用語が明らかにされている。
論文 参考訳(メタデータ) (2024-10-25T20:17:59Z) - Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T13:24:56Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Aligning Large Language Models through Synthetic Feedback [43.84431341195111]
本研究では,ヒトのアノテーションに依存しない合成フィードバックを用いたアライメント学習フレームワークを提案する。
人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。
論文 参考訳(メタデータ) (2023-05-23T06:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。