論文の概要: Democratizing Reward Design for Personal and Representative Value-Alignment
- arxiv url: http://arxiv.org/abs/2410.22203v1
- Date: Tue, 29 Oct 2024 16:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:39.820333
- Title: Democratizing Reward Design for Personal and Representative Value-Alignment
- Title(参考訳): 個人的・代表的価値アライメントのためのリワードデザインの民主化
- Authors: Carter Blair, Kate Larson, Edith Law,
- Abstract要約: 本稿では,対話型対話アライメント(Interactive-Reflective Dialogue Alignment)について紹介する。
本システムは,言語モデルに基づく嗜好誘導を通じて個々の価値定義を学習し,パーソナライズされた報酬モデルを構築する。
本研究は, 価値整合行動の多様な定義を示し, システムによって各人の独自の理解を正確に捉えることができることを示す。
- 参考スコア(独自算出の注目度): 10.1630183955549
- License:
- Abstract: Aligning AI agents with human values is challenging due to diverse and subjective notions of values. Standard alignment methods often aggregate crowd feedback, which can result in the suppression of unique or minority preferences. We introduce Interactive-Reflective Dialogue Alignment, a method that iteratively engages users in reflecting on and specifying their subjective value definitions. This system learns individual value definitions through language-model-based preference elicitation and constructs personalized reward models that can be used to align AI behaviour. We evaluated our system through two studies with 30 participants, one focusing on "respect" and the other on ethical decision-making in autonomous vehicles. Our findings demonstrate diverse definitions of value-aligned behaviour and show that our system can accurately capture each person's unique understanding. This approach enables personalized alignment and can inform more representative and interpretable collective alignment strategies.
- Abstract(参考訳): 人的価値を持つAIエージェントのアラインメントは、多様で主観的な価値の概念のために難しい。
標準的なアライメント手法は、しばしば群衆のフィードバックを集約し、ユニークまたはマイノリティな嗜好を抑圧する。
本稿では,対話型対話アライメント(Interactive-Reflective Dialogue Alignment)について紹介する。
このシステムは、言語モデルに基づく嗜好推論を通じて個々の価値定義を学習し、AI行動の整合に使用できるパーソナライズされた報酬モデルを構築する。
筆者らは,30名の参加者による2つの研究を通してシステムを評価し,一方は「敬意」に焦点を当て,他方は自動運転車の倫理的意思決定に焦点をあてた。
本研究は, 価値整合行動の多様な定義を示し, システムによって各人の独自の理解を正確に捉えることができることを示す。
このアプローチはパーソナライズされたアライメントを可能にし、より代表的で解釈可能な集合アライメント戦略を通知する。
関連論文リスト
- MAP: Multi-Human-Value Alignment Palette [22.74688073469946]
我々はMulti-Human-Value Alignment Palette(MAP)と呼ばれる新しい第一原理的アプローチを開発した。
MAPは、構造化され信頼性の高い方法で、複数の人間の値にまたがるアライメントをナビゲートする。
我々は、値間のトレードオフ、制約に対する感度、多値アライメントとシーケンシャルアライメントの基本的な関係を定量化し、線形重み付き報酬が多値アライメントに十分であることを示すことにより、MAPの詳細な理論的解析を行う。
論文 参考訳(メタデータ) (2024-10-24T23:16:39Z) - Can Language Models Reason about Individualistic Human Values and Preferences? [44.249817353449146]
個人主義的価値推論の具体的な課題について言語モデル(LM)について検討する。
我々は,55%から65%の精度で個人主義的人間の価値を推論する,フロンティアLMの能力の限界を明らかにする。
提案した値不等式指数(sigmaINEQUITY)によって測定された大域的個人主義的価値の推論におけるLMの部分性も同定する。
論文 参考訳(メタデータ) (2024-10-04T19:03:41Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - POV Learning: Individual Alignment of Multimodal Models using Human Perception [1.4796543791607086]
個人レベルでのアライメントは、システムと対話する個人ユーザの主観的な予測性能を高めることができると我々は主張する。
我々は、認識情報を機械学習システムに統合し、予測性能を測定することで、これを検証する。
本研究は, 個人認識信号を用いた主観的人間評価の機械学習が, 個人のアライメントに有用な手がかりとなることを示唆している。
論文 参考訳(メタデータ) (2024-05-07T16:07:29Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Concept Alignment as a Prerequisite for Value Alignment [11.236150405125754]
価値アライメントは、人々と安全かつ確実に対話できるAIシステムを構築するために不可欠である。
概念のアライメントが体系的な価値のアライメントにどのように結びつくかを示します。
我々は、人の概念や価値観を共同で推論することで、このような障害モードを最小化するアプローチについて説明する。
論文 参考訳(メタデータ) (2023-10-30T22:23:15Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Fully Unsupervised Person Re-identification viaSelective Contrastive
Learning [58.5284246878277]
人物再識別(ReID)は、様々なカメラが捉えた画像の中から同一人物を検索することを目的としている。
教師なし特徴学習のための新しい選択型コントラスト学習フレームワークを提案する。
その結果,教師なしのReIDにおける手法の優位性について,最先端技術と比較した。
論文 参考訳(メタデータ) (2020-10-15T09:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。