論文の概要: MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization
- arxiv url: http://arxiv.org/abs/2410.07672v1
- Date: Thu, 10 Oct 2024 07:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:36:27.078167
- Title: MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization
- Title(参考訳): MACPO:マルチエージェントコントラスト参照最適化による弱-ストロングアライメント
- Authors: Yougang Lyu, Lingyong Yan, Zihan Wang, Dawei Yin, Pengjie Ren, Maarten de Rijke, Zhaochun Ren,
- Abstract要約: 大規模言語モデルと人的価値を一致させるために,マルチエージェント・コントラスト優先最適化(MACPO)フレームワークを提案する。
MACPOは、強い生徒と弱い教師のアライメント性能を同時に向上することを示す。
弱い教師の数が増加するにつれて、MACPOはより多くのイテレーション最適化ラウンドにより、より弱い教師同士のアライメントのパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 85.57830162117631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are rapidly advancing and achieving near-human capabilities, aligning them with human values is becoming more urgent. In scenarios where LLMs outperform humans, we face a weak-to-strong alignment problem where we need to effectively align strong student LLMs through weak supervision generated by weak teachers. Existing alignment methods mainly focus on strong-to-weak alignment and self-alignment settings, and it is impractical to adapt them to the much harder weak-to-strong alignment setting. To fill this gap, we propose a multi-agent contrastive preference optimization (MACPO) framework. MACPO facilitates weak teachers and strong students to learn from each other by iteratively reinforcing unfamiliar positive behaviors while penalizing familiar negative ones. To get this, we devise a mutual positive behavior augmentation strategy to encourage weak teachers and strong students to learn from each other's positive behavior and further provide higher quality positive behavior for the next iteration. Additionally, we propose a hard negative behavior construction strategy to induce weak teachers and strong students to generate familiar negative behavior by fine-tuning on negative behavioral data. Experimental results on the HH-RLHF and PKU-SafeRLHF datasets, evaluated using both automatic metrics and human judgments, demonstrate that MACPO simultaneously improves the alignment performance of strong students and weak teachers. Moreover, as the number of weak teachers increases, MACPO achieves better weak-to-strong alignment performance through more iteration optimization rounds.
- Abstract(参考訳): 大規模言語モデル(LLM)が急速に進歩し、ほぼ人間に近い能力を達成するにつれ、それらと人間の価値を合わせることが、より緊急になってきている。
LLMが人間より優れるシナリオでは、弱い教師が生み出す弱い監督によって、強い学生のLLMを効果的に整合させる必要がある、弱直なアライメント問題に直面している。
既存のアライメント手法は主に強弱アライメントと自己アライメント設定に重点を置いており、より厳格な弱いアライメント設定に適応することは不可能である。
このギャップを埋めるために,マルチエージェントコントラスト優先最適化(MACPO)フレームワークを提案する。
MACPOは、慣れ親しんだネガティブな行動を反復的に強化し、弱い教師と強い学生が互いに学び合うのを促進する。
そこで我々は,弱い教師と強い生徒がお互いの肯定的な行動から学び,次のイテレーションでより高い品質の肯定的な行動を提供するための,相互肯定的な行動増強戦略を考案した。
さらに、弱い教師や強い生徒を誘導し、ネガティブな行動データを微調整して親しみやすいネガティブな行動を生成するための強硬なネガティブな行動構築戦略を提案する。
HH-RLHFデータセットとPKU-SafeRLHFデータセットを自動測定と人的判断の両方を用いて評価した結果,MACPOは強い生徒と弱い教師のアライメント性能を同時に向上することが示された。
さらに、弱い教師の数が増加するにつれて、MACPOはよりイテレーション最適化ラウンドにより、より弱い教師同士のアライメント性能が向上する。
関連論文リスト
- Mars-PO: Multi-Agent Reasoning System Preference Optimization [16.145823558485393]
大規模言語モデル(LLM)の数学的推論能力を改善するための新しいフレームワークであるMars-POを提案する。
複数のエージェントからの高品質な出力をハイブリッドな正のサンプルセットに組み合わせ、エージェント固有の負のサンプルと組み合わせて、トレーニングのための堅牢な選好ペアを構築する。
個々の弱点に対処しながら、エージェントを共有陽性のサンプルと整列させることで、Mars-POは数学的推論ベンチマークで大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-11-28T10:35:16Z) - Your Weak LLM is Secretly a Strong Teacher for Alignment [19.33906256866585]
既存のアライメントフレームワークは、高価な人的労力または高い計算コストの形で制約を提示します。
本稿では,上位層モデルよりも資源集約度が低い弱いLLMを用いた,有望な中間層を探索する。
弱いLLMは、完全に注釈付けされたデータに匹敵する、あるいは超えるフィードバックを提供することができる。
論文 参考訳(メタデータ) (2024-09-13T13:24:52Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization [37.8788435790632]
大規模言語モデル(LLM)は、AIの役割に革命をもたらしたが、潜在的な社会的リスクをもたらしている。
既存の方法は高品質な正負の訓練ペアに依存しており、ノイズの多い正の反応に悩まされており、負の反応とほとんど区別できない。
本稿では,非参照応答と生成した非負応答との差を最大化する分散参照最適化(D$2$O)を提案する。
論文 参考訳(メタデータ) (2024-03-06T03:02:38Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Rethinking Uncertainty in Deep Learning: Whether and How it Improves
Robustness [20.912492996647888]
対人訓練(AT)は、クリーンな例と他の種類の攻撃の両方において、パフォーマンスの低下に悩まされる。
エントロピー(EntM)やラベルスムーシング(LS)のような不確実な出力を促進する正規化器は、クリーンな例で精度を維持し、弱い攻撃下での性能を向上させることができる。
本稿では,逆学習分野において,EntMやLSを含む不確実性向上レギュレータを再検討する。
論文 参考訳(メタデータ) (2020-11-27T03:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。