論文の概要: Teaching Models to Balance Resisting and Accepting Persuasion
- arxiv url: http://arxiv.org/abs/2410.14596v1
- Date: Fri, 18 Oct 2024 16:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:59.609153
- Title: Teaching Models to Balance Resisting and Accepting Persuasion
- Title(参考訳): レジストリングと説得のバランスをとるためのモデル
- Authors: Elias Stengel-Eskin, Peter Hase, Mohit Bansal,
- Abstract要約: 大規模言語モデル(LLM)は説得に影響を受けやすいため、モデルが対向的インターロケータに直面するとリスクが生じる可能性がある。
モデルを一方だけに最適化すると、もう一方のパフォーマンスが低下することを示す。
PBT(Persuasion-Balanced Training)を導入する。
- 参考スコア(独自算出の注目度): 69.68379406317682
- License:
- Abstract: Large language models (LLMs) are susceptible to persuasion, which can pose risks when models are faced with an adversarial interlocutor. We take a first step towards defending models against persuasion while also arguing that defense against adversarial (i.e. negative) persuasion is only half of the equation: models should also be able to accept beneficial (i.e. positive) persuasion to improve their answers. We show that optimizing models for only one side results in poor performance on the other. In order to balance positive and negative persuasion, we introduce Persuasion-Balanced Training (or PBT), which leverages multi-agent recursive dialogue trees to create data and trains models via preference optimization to accept persuasion when appropriate. PBT consistently improves resistance to misinformation and resilience to being challenged while also resulting in the best overall performance on holistic data containing both positive and negative persuasion. Crucially, we show that PBT models are better teammates in multi-agent debates. We find that without PBT, pairs of stronger and weaker models have unstable performance, with the order in which the models present their answers determining whether the team obtains the stronger or weaker model's performance. PBT leads to better and more stable results and less order dependence, with the stronger model consistently pulling the weaker one up.
- Abstract(参考訳): 大規模言語モデル(LLM)は説得に影響を受けやすいため、モデルが対向的インターロケータに直面するとリスクが生じる可能性がある。
我々は、説得からモデルを守るための第一歩を踏み出し、また、敵対的(負の)説得に対する防御は、方程式の半分にすぎないと主張する:モデルはまた、彼らの答えを改善するために有益(正の)説得を受け入れることができるべきである。
モデルを一方だけに最適化すると、もう一方のパフォーマンスが低下することを示す。
PBT(Persuasion-Balanced Training)は,複数エージェントの再帰的対話木を用いて,好みの最適化によるデータ生成とモデルの訓練を行い,適切なパースケーションを受け入れる。
PBTは、誤情報やレジリエンスに対する耐性を継続的に改善すると同時に、正と負の両方の説得を含む総合的なデータに対して、最高の全体的なパフォーマンスをもたらす。
重要なことは、マルチエージェントの議論において、PBTモデルはチームメイトとして優れていることを示している。
PBTがなければ、より強いモデルと弱いモデルのペアは不安定なパフォーマンスを示し、チームはより強いモデルと弱いモデルのパフォーマンスを得るかどうかを決定する。
PBTは、より良く、より安定した結果をもたらし、より強いモデルはより弱い結果を引き上げる。
関連論文リスト
- Debating with More Persuasive LLMs Leads to More Truthful Answers [45.0343254517401]
議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で質問に答えるのを一貫して助けていることに気付きました。
以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-02-09T21:05:01Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z) - Mutual Adversarial Training: Learning together is better than going
alone [82.78852509965547]
モデル間の相互作用が知識蒸留による堅牢性に与える影響について検討する。
本稿では,複数のモデルを同時に訓練する相互対人訓練(MAT)を提案する。
MATは、ホワイトボックス攻撃下で、モデル堅牢性と最先端メソッドを効果的に改善することができる。
論文 参考訳(メタデータ) (2021-12-09T15:59:42Z) - On visual self-supervision and its effect on model robustness [9.313899406300644]
自己監督はモデルロバスト性を改善することができるが、悪魔が細部にあることが判明した。
自己監督型プレトレーニングは, 対人訓練の改善に効果があるが, 自己監督型プレトレーニングを対人訓練に組み込んだ場合, モデル堅牢性や精度には何の利益も与えない。
論文 参考訳(メタデータ) (2021-12-08T16:22:02Z) - Imbalanced Adversarial Training with Reweighting [33.51820466479575]
学習データセットが不均衡である場合、逆向きに訓練されたモデルは、表現不足のクラスでは、はるかにパフォーマンスが悪くなる可能性があることを示す。
従来の再重み付け戦略は、敵の訓練の不均衡問題に対処する効果を失う可能性がある。
本研究では,不均衡シナリオ下での対人訓練を容易にするために,SRAT(Separable Reweighted Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2021-07-28T20:51:36Z) - Deep Repulsive Prototypes for Adversarial Robustness [3.351714665243138]
本研究では,大規模なクラス分離を伴う出力空間上でのモデル学習を提案し,対角的トレーニングを伴わずに頑健性を得る。
出力空間を大分離したクラスプロトタイプに分割する手法を導入し,それを保存するためのモデルを訓練する。
実験結果から, これらの試作機で訓練したモデルは, 対人訓練と競争力を持つことがわかった。
論文 参考訳(メタデータ) (2021-05-26T09:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。