論文の概要: MAP: Multi-Human-Value Alignment Palette
- arxiv url: http://arxiv.org/abs/2410.19198v1
- Date: Thu, 24 Oct 2024 23:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:18.751196
- Title: MAP: Multi-Human-Value Alignment Palette
- Title(参考訳): MAP:マルチヒューマン値アライメントパレット
- Authors: Xinran Wang, Qi Le, Ammar Ahmed, Enmao Diao, Yi Zhou, Nathalie Baracaldo, Jie Ding, Ali Anwar,
- Abstract要約: 我々はMulti-Human-Value Alignment Palette(MAP)と呼ばれる新しい第一原理的アプローチを開発した。
MAPは、構造化され信頼性の高い方法で、複数の人間の値にまたがるアライメントをナビゲートする。
我々は、値間のトレードオフ、制約に対する感度、多値アライメントとシーケンシャルアライメントの基本的な関係を定量化し、線形重み付き報酬が多値アライメントに十分であることを示すことにより、MAPの詳細な理論的解析を行う。
- 参考スコア(独自算出の注目度): 22.74688073469946
- License:
- Abstract: Ensuring that generative AI systems align with human values is essential but challenging, especially when considering multiple human values and their potential trade-offs. Since human values can be personalized and dynamically change over time, the desirable levels of value alignment vary across different ethnic groups, industry sectors, and user cohorts. Within existing frameworks, it is hard to define human values and align AI systems accordingly across different directions simultaneously, such as harmlessness, helpfulness, and positiveness. To address this, we develop a novel, first-principle approach called Multi-Human-Value Alignment Palette (MAP), which navigates the alignment across multiple human values in a structured and reliable way. MAP formulates the alignment problem as an optimization task with user-defined constraints, which define human value targets. It can be efficiently solved via a primal-dual approach, which determines whether a user-defined alignment target is achievable and how to achieve it. We conduct a detailed theoretical analysis of MAP by quantifying the trade-offs between values, the sensitivity to constraints, the fundamental connection between multi-value alignment and sequential alignment, and proving that linear weighted rewards are sufficient for multi-value alignment. Extensive experiments demonstrate MAP's ability to align multiple values in a principled manner while delivering strong empirical performance across various tasks.
- Abstract(参考訳): 生成可能なAIシステムが人間の価値と整合することを保証することは不可欠だが、特に複数の人間の価値とその潜在的なトレードオフを考慮する場合、難しい。
人的価値は、時間とともにパーソナライズされ、動的に変化するので、望ましいレベルの価値アライメントは、異なる民族グループ、産業セクター、およびユーザーコホートによって異なる。
既存のフレームワークでは、人間の価値を定義し、AIシステムをさまざまな方向を同時に調整することは困難である。
そこで本研究では,マルチヒューマン値アライメント・パレット(MAP)と呼ばれる,複数人の値のアライメントを,構造化された信頼性の高い方法でナビゲートする手法を開発した。
MAPは、アライメント問題をユーザ定義制約による最適化タスクとして定式化し、人間の価値目標を定義する。
これは、ユーザが定義したアライメントターゲットが達成可能かどうかを判断し、その実現方法を決定する、原始双対アプローチによって効率よく解決できる。
我々は、値間のトレードオフ、制約に対する感度、多値アライメントとシーケンシャルアライメントの基本的な関係を定量化し、線形重み付き報酬が多値アライメントに十分であることを示すことにより、MAPの詳細な理論的解析を行う。
大規模な実験では、MAPが複数の値を原則的に整列し、様々なタスクで強力な経験的性能を発揮できることを示した。
関連論文リスト
- Democratizing Reward Design for Personal and Representative Value-Alignment [10.1630183955549]
本稿では,対話型対話アライメント(Interactive-Reflective Dialogue Alignment)について紹介する。
本システムは,言語モデルに基づく嗜好誘導を通じて個々の価値定義を学習し,パーソナライズされた報酬モデルを構築する。
本研究は, 価値整合行動の多様な定義を示し, システムによって各人の独自の理解を正確に捉えることができることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:37:01Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - ValueCompass: A Framework of Fundamental Values for Human-AI Alignment [15.35489011078817]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。
本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。
以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
論文 参考訳(メタデータ) (2024-09-15T02:13:03Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Multi-Value Alignment in Normative Multi-Agent System: Evolutionary
Optimisation Approach [1.160208922584163]
本研究は,多目的進化アルゴリズムを用いて最適パラメトリックなノルムセットを生成する多値促進モデルを提案する。
2と5の値を持つ2つのおもちゃ税シナリオを考慮し、最適化された規範パラメータのセットを見つけるために、いくつかの進化的アルゴリズムが使用された。
論文 参考訳(メタデータ) (2023-05-12T10:30:20Z) - What are you optimizing for? Aligning Recommender Systems with Human
Values [9.678391591582582]
実際のレコメンデータシステムが、さまざまな人的価値を提供するために修正された事例について述べる。
私たちは利害関係者から直接複雑な価値を学習できるアプローチのためのAIアライメント作業に注目します。
論文 参考訳(メタデータ) (2021-07-22T21:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。