論文の概要: Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment
- arxiv url: http://arxiv.org/abs/2405.00557v1
- Date: Wed, 1 May 2024 15:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 15:27:48.896411
- Title: Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment
- Title(参考訳): 不適切な専門家(MoTE)の混在 : 自己アライメントにおける思考の連鎖とエキスパート混在の相乗効果
- Authors: Zhili Liu, Yunhao Gou, Kai Chen, Lanqing Hong, Jiahui Gao, Fei Mi, Yu Zhang, Zhenguo Li, Xin Jiang, Qun Liu, James T. Kwok,
- Abstract要約: 従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。
本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。
本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用するMoTEアーキテクチャについて紹介する。
- 参考スコア(独自算出の注目度): 103.05005690990271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the capabilities of large language models (LLMs) have expanded dramatically, aligning these models with human values presents a significant challenge, posing potential risks during deployment. Traditional alignment strategies rely heavily on human intervention, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF), or on the self-alignment capacities of LLMs, which usually require a strong LLM's emergent ability to improve its original bad answer. To address these challenges, we propose a novel self-alignment method that utilizes a Chain of Thought (CoT) approach, termed AlignCoT. This method encompasses stages of Question Analysis, Answer Guidance, and Safe Answer production. It is designed to enable LLMs to generate high-quality, safe responses throughout various stages of their development. Furthermore, we introduce the Mixture of insighTful Experts (MoTE) architecture, which applies the mixture of experts to enhance each component of the AlignCoT process, markedly increasing alignment efficiency. The MoTE approach not only outperforms existing methods in aligning LLMs with human values but also highlights the benefits of using self-generated data, revealing the dual benefits of improved alignment and training efficiency.
- Abstract(参考訳): 大きな言語モデル(LLM)の能力が劇的に拡大し、これらのモデルを人間の価値と整合させることは、デプロイメント中に潜在的なリスクを生じさせる重要な課題である。
従来のアライメント戦略は人間の介入に大きく依存しており、例えばスーパーバイザード・ファイン・チューニング(SFT)や人間からのフィードバックからの強化学習(RLHF)、あるいはLLMの自己調整能力に大きく依存している。
これらの課題に対処するため,AlignCoT と呼ばれる Chain of Thought (CoT) アプローチを利用した新たな自己アライメント手法を提案する。
本手法は,質問分析,回答指導,安全回答作成の段階を含む。
LLMは、開発の各段階で高品質で安全な応答を生成するように設計されている。
さらに,AlignCoTプロセスの各コンポーネントの強化に専門家の混在を適用し,アライメント効率を著しく向上させるMixture of InsighTful Experts (MoTE)アーキテクチャを導入する。
MoTEアプローチは、LLMを人間の価値と整合させる既存の手法よりも優れているだけでなく、自己生成データを使用することの利点を強調し、アライメントの改善とトレーニング効率の2つの利点を明らかにしている。
関連論文リスト
- CoEvol: Constructing Better Responses for Instruction Finetuning through Multi-Agent Cooperation [33.33513657902765]
命令に対する応答を改善するためのLLMベースのマルチエージェント協調フレームワークであるCoEvolを提案する。
実証的には、CoEvolを搭載したモデルはMT-BenchとAlpacaEvalで評価された競争ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-11T08:35:37Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - CLHA: A Simple yet Effective Contrastive Learning Framework for Human Alignment [42.71324708567498]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる重要な手法である。
我々は,LLMと人間の嗜好を直接整合させる,単純かつ効果的な人間適応のためのコントラスト学習フレームワーク(CLHA)を提案する。
論文 参考訳(メタデータ) (2024-03-25T11:37:15Z) - Unleashing the Power of Meta-tuning for Few-shot Generalization Through Sparse Interpolated Experts [33.58165081033569]
Sparse MetA-Tuning (SMAT) はスパース・ミックス・オブ・エキスパート・アプローチにインスパイアされた手法である。
SMATはOOD感度を克服し、ビジョンファウンデーションモデルの転送能力を高めることを約束する。
論文 参考訳(メタデータ) (2024-03-13T12:46:03Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。