論文の概要: Teaching Models to Balance Resisting and Accepting Persuasion
- arxiv url: http://arxiv.org/abs/2410.14596v2
- Date: Mon, 10 Feb 2025 14:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:19.181593
- Title: Teaching Models to Balance Resisting and Accepting Persuasion
- Title(参考訳): レジストリングと説得のバランスをとるためのモデル
- Authors: Elias Stengel-Eskin, Peter Hase, Mohit Bansal,
- Abstract要約: PBT (Persuasion-Training) は正と負の説得のバランスをとることができる。
PBTにより、より小さな7-8Bモデル間の対話から生成されたデータを使用して、より大規模な70Bモデルのトレーニングを行うことができる。
PBTは, より安定な結果をもたらし, 順序依存の低減につながることが判明した。
- 参考スコア(独自算出の注目度): 69.68379406317682
- License:
- Abstract: Large language models (LLMs) are susceptible to persuasion, which can pose risks when models are faced with an adversarial interlocutor. We take a first step towards defending models against persuasion while also arguing that defense against adversarial (i.e. negative) persuasion is only half of the equation: models should also be able to accept beneficial (i.e. positive) persuasion to improve their answers. We show that optimizing models for only one side results in poor performance on the other. In order to balance positive and negative persuasion, we introduce Persuasion-Training (or PBT), which leverages multi-agent recursive dialogue trees to create data and trains models via preference optimization to accept persuasion when appropriate. PBT allows us to use data generated from dialogues between smaller 7-8B models for training much larger 70B models. Moreover, PBT consistently improves resistance to misinformation and resilience to being challenged while also resulting in the best overall performance on holistic data containing both positive and negative persuasion. Crucially, we show that PBT models are better teammates in multi-agent debates across two domains (trivia and commonsense QA). We find that without PBT, pairs of stronger and weaker models have unstable performance, with the order in which the models present their answers determining whether the team obtains the stronger or weaker model's performance. PBT leads to better and more stable results and less order dependence, with the stronger model consistently pulling the weaker one up.
- Abstract(参考訳): 大規模言語モデル(LLM)は説得に影響を受けやすいため、モデルが対向的インターロケータに直面するとリスクが生じる可能性がある。
我々は、説得からモデルを守るための第一歩を踏み出し、また、敵対的(負の)説得に対する防御は、方程式の半分にすぎないと主張する:モデルはまた、彼らの答えを改善するために有益(正の)説得を受け入れることができるべきである。
モデルを一方だけに最適化すると、もう一方のパフォーマンスが低下することを示す。
PBT(Persuasion-Training)は,複数エージェントの再帰的対話木を用いて,好みの最適化によるデータ生成とモデルの訓練を行い,適切なパースケーションを受け入れる。
PBTにより、より小さな7-8Bモデル間の対話から生成されたデータを使用して、より大規模な70Bモデルのトレーニングを行うことができる。
さらに、PBTは、誤情報に対する耐性と難読化に対するレジリエンスを一貫して改善し、また、正と負の両方の説得を含む総観的なデータに対する最高の全体的なパフォーマンスをもたらす。
重要なことは、PBTモデルは2つのドメイン(トリビアとコモンセンスのQA)にわたるマルチエージェントの議論において、より優れたチームメイトであることが示される。
PBTがなければ、より強いモデルと弱いモデルのペアは不安定なパフォーマンスを示し、チームはより強いモデルと弱いモデルのパフォーマンスを得るかどうかを決定する。
PBTは、より良く、より安定した結果をもたらし、より強いモデルはより弱い結果を引き上げる。
関連論文リスト
- Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (2025-01-21T05:36:13Z) - Diversity of Thought Elicits Stronger Reasoning Capabilities in Multi-Agent Debate Frameworks [0.0]
大規模言語モデルの推論と事実的正確性を改善するために, 思考の促進, 自己検証, マルチエージェントの議論が提案されている。
マルチエージェントの議論はどんなモデルスケールでも有効であり、思考の多様性はLLMの議論においてより強力な推論をもたらす。
論文 参考訳(メタデータ) (2024-10-10T21:59:01Z) - ProFuser: Progressive Fusion of Large Language Models [53.697927989207045]
トレーニングモードと推論モードの両方を組み込むことで、融合プロセスを強化する新しいアプローチを導入する。
本手法は,トレーニング中のクロスエントロピーだけでなく,推論出力も考慮してモデル優位性を評価する。
ProFuserの有効性を検証するために, vicuna-7b-v1.5, Llama-2-7b-chat, mpt-7b-8k-chatの3つのモデルを融合した。
論文 参考訳(メタデータ) (2024-08-09T11:18:29Z) - Debating with More Persuasive LLMs Leads to More Truthful Answers [45.0343254517401]
議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で質問に答えるのを一貫して助けていることに気付きました。
以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-02-09T21:05:01Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Mutual Adversarial Training: Learning together is better than going
alone [82.78852509965547]
モデル間の相互作用が知識蒸留による堅牢性に与える影響について検討する。
本稿では,複数のモデルを同時に訓練する相互対人訓練(MAT)を提案する。
MATは、ホワイトボックス攻撃下で、モデル堅牢性と最先端メソッドを効果的に改善することができる。
論文 参考訳(メタデータ) (2021-12-09T15:59:42Z) - Deep Repulsive Prototypes for Adversarial Robustness [3.351714665243138]
本研究では,大規模なクラス分離を伴う出力空間上でのモデル学習を提案し,対角的トレーニングを伴わずに頑健性を得る。
出力空間を大分離したクラスプロトタイプに分割する手法を導入し,それを保存するためのモデルを訓練する。
実験結果から, これらの試作機で訓練したモデルは, 対人訓練と競争力を持つことがわかった。
論文 参考訳(メタデータ) (2021-05-26T09:30:28Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。