Fugu-MT 論文翻訳(概要): Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

論文の概要: Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

arxiv url: http://arxiv.org/abs/2305.03047v1
Date: Thu, 4 May 2023 17:59:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 14:19:06.989364
Title: Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
Title（参考訳）: 最小限の人間の監督によるスクラッチからの言語モデルの原則駆動型自己調整
Authors: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
Abstract要約: ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 74.01930585052945
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised fine-tuning (SFT) with human annotations and reinforcement learning from human feedback (RLHF) to align the output of large language models (LLMs) with human intentions, ensuring they are helpful, ethical, and reliable. However, this dependence can significantly constrain the true potential of AI-assistant agents due to the high cost of obtaining human supervision and the related issues on quality, reliability, diversity, self-consistency, and undesirable biases. To address these challenges, we propose a novel approach called SELF-ALIGN, which combines principle-driven reasoning and the generative power of LLMs for the self-alignment of AI agents with minimal human supervision. Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses. Applying SELF-ALIGN to the LLaMA-65b base language model, we develop an AI assistant named Dromedary. With fewer than 300 lines of human annotations (including < 200 seed prompts, 16 generic principles, and 5 exemplars for in-context learning). Dromedary significantly surpasses the performance of several state-of-the-art AI systems, including Text-Davinci-003 and Alpaca, on benchmark datasets with various settings.
Abstract（参考訳）: ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションによる教師付き微調整(SFT)と人間のフィードバックからの強化学習(RLHF)を主に頼りにしており、大きな言語モデル(LLM)の出力と人間の意図を一致させ、それらが有益で倫理的で信頼性の高いものであることを保証している。しかし、この依存は、人間の監督を得るための高いコストと、品質、信頼性、多様性、自己矛盾、望ましくないバイアスに関する関連する問題のために、aiアシスタントエージェントの真のポテンシャルを著しく制限することができる。これらの課題に対処するため,本研究では,AIエージェントの自己調整のための原則駆動推論とLLMの生成能力を組み合わせた,SELF-ALIGNという新しいアプローチを提案する。 Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses. また,SELF-ALIGNをLLaMA-65bベース言語モデルに適用し,DromedaryというAIアシスタントを開発した。 300行未満の人間のアノテーション(200行以上のシードプロンプト、16のジェネリック原則、インコンテキスト学習のための5つの例を含む)を持つ。 Dromedaryは、さまざまな設定のベンチマークデータセット上で、Text-Davinci-003やAlpacaなど、最先端のAIシステムのパフォーマンスを大幅に上回る。

関連論文リスト

Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。 GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文参考訳（メタデータ） (2025-08-27T06:51:48Z)
Introspection of Thought Helps AI Agents [19.04968632268433]
大規模言語モデル(LLM)とマルチモーダルLLM(MLLM)が最も重要な役割を担い、AIエージェントの初期能力と限界を決定する。本稿では,新しいLLM-Read コードを即座に設計することで,思考のイントロスペクション(INoT)を用いたAIエージェント推論フレームワークを提案する。 INoTの有効性は, 平均性能が7.95%向上し, ベースラインを超えることが確認された。
論文参考訳（メタデータ） (2025-07-11T15:03:17Z)
Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking [0.0]
大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。 LLMが表現する値の出力に基づく評価であるPAPERSを導入する。
論文参考訳（メタデータ） (2025-06-14T20:14:02Z)
Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
本研究では,人間のアノテーションを使わずに,大規模言語モデル(LLM)の短文および長文生成タスクにおける忠実度を改善するための体系的フレームワークであるCANOEを提案する。また,ルールに基づく強化学習手法であるDual-GRPOを提案する。実験結果から,CANOEは11の下流タスクにまたがるLLMの忠実度を大幅に向上し,最も先進的なLLMよりも優れていた。
論文参考訳（メタデータ） (2025-05-22T10:10:07Z)
Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文参考訳（メタデータ） (2025-04-07T03:48:02Z)
Can We Trust AI Agents? An Experimental Study Towards Trustworthy LLM-Based Multi-Agent Systems for AI Ethics [10.084913433923566]
本研究では,信頼度向上技術が倫理的AI出力生成に与える影響について検討する。我々はLLM-BMASのプロトタイプを設計し、エージェントは現実世界の倫理的AI問題に関する構造化された議論を行う。議論では、バイアス検出、透明性、説明責任、ユーザの同意、コンプライアンス、公正性評価、EU AI Actコンプライアンスといった用語が明らかにされている。
論文参考訳（メタデータ） (2024-10-25T20:17:59Z)
Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T13:24:56Z)
MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文参考訳（メタデータ） (2024-06-20T09:27:33Z)
Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文参考訳（メタデータ） (2024-06-17T03:51:46Z)
Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [38.822535662755314]
大規模言語モデル(LLM)のためのサンプル効率のよい人的評価手法を提案する。提案手法は,LLM応答のペア間のセマンティックな差異を最大化する,コンパクトな入力命令セットを自動的に適応的に選択する。人間の評価者は、これらのペア化された反応に対して3つの代替的な選択を行い、エロ評価を用いてグローバルなランキングに集約される。
論文参考訳（メタデータ） (2024-04-10T01:26:24Z)
Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文参考訳（メタデータ） (2024-01-06T14:00:12Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Aligning Large Language Models through Synthetic Feedback [43.84431341195111]
本研究では,ヒトのアノテーションに依存しない合成フィードバックを用いたアライメント学習フレームワークを提案する。人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。
論文参考訳（メタデータ） (2023-05-23T06:41:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。