論文の概要: Strong Preferences Affect the Robustness of Value Alignment
- arxiv url: http://arxiv.org/abs/2410.02451v1
- Date: Thu, 3 Oct 2024 12:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:11:05.546612
- Title: Strong Preferences Affect the Robustness of Value Alignment
- Title(参考訳): 価値アライメントのロバスト性に対する強い評価
- Authors: Ziwei Xu, Mohan Kankanhalli,
- Abstract要約: バリューアライメントは、大きな言語モデルが人間の価値に応じて振る舞うことを保証することを目的としています。
価値アライメントの重要な要素は、人間の価値観の表現としての人間の嗜好のモデリングである。
- 参考スコア(独自算出の注目度): 3.502879452114223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value alignment, which aims to ensure that large language models (LLMs) and other AI agents behave in accordance with human values, is critical for ensuring safety and trustworthiness of these systems. A key component of value alignment is the modeling of human preferences as a representation of human values. In this paper, we investigate the robustness of value alignment by examining the sensitivity of preference models. Specifically, we ask: how do changes in the probabilities of some preferences affect the predictions of these models for other preferences? To answer this question, we theoretically analyze the robustness of widely used preference models by examining their sensitivities to minor changes in preferences they model. Our findings reveal that, in the Bradley-Terry and the Placket-Luce model, the probability of a preference can change significantly as other preferences change, especially when these preferences are dominant (i.e., with probabilities near 0 or 1). We identify specific conditions where this sensitivity becomes significant for these models and discuss the practical implications for the robustness and safety of value alignment in AI systems.
- Abstract(参考訳): 大きな言語モデル(LLM)や他のAIエージェントが人間の価値観に従って行動することを確実にすることを目的としたバリューアライメントは、これらのシステムの安全性と信頼性を保証するために重要である。
価値アライメントの重要な要素は、人間の価値観の表現としての人間の嗜好のモデリングである。
本稿では,嗜好モデルの感度を調べた結果,値アライメントの堅牢性について検討する。
特定の選好の確率の変化は、他の選好に対するこれらのモデルの予測にどのように影響しますか?
この疑問に対処するために、我々は、広く使われている嗜好モデルの頑健さを、その嗜好の微妙な変化に対する感性を調べることによって理論的に分析する。
その結果,Bradley-Terry モデルと Placket-Luce モデルでは,選好の確率は,他の選好の変化とともに大きく変化することが明らかとなった。
この感度がこれらのモデルにとって重要となる特定の条件を特定し、AIシステムにおける価値アライメントの堅牢性と安全性の実践的意義について議論する。
関連論文リスト
- From Efficiency to Equity: Measuring Fairness in Preference Learning [3.2132738637761027]
不平等とロウルシアン正義の経済理論に触発された嗜好学習モデルの公平性を評価する。
Gini Coefficient, Atkinson Index, Kuznets Ratio を用いて,これらのモデルの公平性を定量化するための指標を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:25:56Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness [24.843692458375436]
本研究は,5つの信頼性分野において,汎用的嗜好データに整合したモデルが,有益性と無害性に与える影響について検討した。
RLHFによる信頼性の向上は保証されるには程遠いものであり、嗜好データ、アライメントアルゴリズム、および特定の信頼性の側面の間には複雑な相互作用が存在する。
論文 参考訳(メタデータ) (2024-04-29T17:00:53Z) - Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification [72.08225446179783]
逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
論文 参考訳(メタデータ) (2024-03-11T16:09:39Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Sensitivity-Aware Amortized Bayesian Inference [8.753065246797561]
感度分析は、様々なモデリング選択が統計的分析の結果に与える影響を明らかにする。
ニューラルネットワークを用いたシミュレーションベース推論に感度解析を統合するための多面的アプローチである感性認識型ベイズ推論(SA-ABI)を提案する。
本稿では,本手法が病気発生のダイナミクスや地球温暖化のしきい値から人的意思決定に至るまで,応用モデリング問題における有効性を示す。
論文 参考訳(メタデータ) (2023-10-17T10:14:10Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Robust Ordinal Regression for Subsets Comparisons with Interactions [2.6151761714896122]
本稿では,サブセット間の意思決定者の好みを学習するための厳密な順序付け手法を提案する。
Fishburn と LaValle から派生した決定モデルは、部分集合上の厳密な弱順序と互換性を持つほど一般である。
予測された嗜好が、すべての最も単純なモデル(オッカムのカミソリ)がその嗜好データに一致する場合、信頼できると考えられる。
論文 参考訳(メタデータ) (2023-08-07T07:54:33Z) - Why Should I Trust a Model is Private? Using Shifts in Model Explanation
for Evaluating Privacy-Preserving Emotion Recognition Model [35.016050900061]
本稿では,モデルの有効性を評価するために解釈可能な手法を用いることに焦点をあてる。
プライバシーを守るための一般的な方法が、プライバシー保護の人間の認識とどのように一致しないかを示します。
評価者の傾きを評価し、特定のタスクのモデルを選択するためのクラウドソーシング実験を行います。
論文 参考訳(メタデータ) (2021-04-18T09:56:41Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。