論文の概要: Adaptive Preference Aggregation
- arxiv url: http://arxiv.org/abs/2503.10215v1
- Date: Thu, 13 Mar 2025 09:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:39.858285
- Title: Adaptive Preference Aggregation
- Title(参考訳): Adaptive Preference Aggregation
- Authors: Benjamin Heymann,
- Abstract要約: 社会的選択理論は嗜好を集約する枠組みを提供するが、AIの典型的な多次元アプリケーションのために開発されたものではない。
本研究は、ユーザのコンテキストに適応し、Condorcet-Consistent Solutionのコンセプトである最大抽選の良さを継承する選好集約戦略を導入する。
- 参考スコア(独自算出の注目度): 1.6317061277457001
- License:
- Abstract: AI alignment, the challenge of ensuring AI systems act in accordance with human values, has emerged as a critical problem in the development of systems such as foundation models and recommender systems. Still, the current dominant approach, reinforcement learning with human feedback (RLHF) faces known theoretical limitations in aggregating diverse human preferences. Social choice theory provides a framework to aggregate preferences, but was not developed for the multidimensional applications typical of AI. Leveraging insights from a recently published urn process, this work introduces a preference aggregation strategy that adapts to the user's context and that inherits the good properties of the maximal lottery, a Condorcet-consistent solution concept.
- Abstract(参考訳): AIアライメント(AIアライメント)は、AIシステムが人間の価値観に従って行動することを保証するための課題であり、ファンデーションモデルやレコメンダシステムのようなシステムの開発において重要な問題として現れている。
しかし、現在の主流のアプローチである、人間からのフィードバックによる強化学習(RLHF)は、様々な人間の嗜好を集約する理論上の制約に直面している。
社会的選択理論は、好みを集約する枠組みを提供するが、AIの典型的な多次元アプリケーションのために開発されたものではない。
この研究は、最近公開されたurnプロセスからの洞察を活用し、ユーザのコンテキストに適応し、Condorcet-Consistentなソリューション概念であるmaximal lotteryの良質な特性を継承する選好集約戦略を導入する。
関連論文リスト
- Adaptive Alignment: Dynamic Preference Adjustments via Multi-Objective Reinforcement Learning for Pluralistic AI [4.80825466957272]
MORL(Multi Objective Reinforcement Learning)を通じて,AIを多種多様なユーザ嗜好に整合させるアプローチを提案する。
本稿では,提案手法の枠組みを紹介するとともに,その期待されている利点と前提を概説し,実装に関する技術的詳細について議論する。
論文 参考訳(メタデータ) (2024-10-31T04:46:52Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Socio-cognitive Optimization of Time-delay Control Problems using
Evolutionary Metaheuristics [89.24951036534168]
メタヒューリスティックス(Metaheuristics)は、古典的なアプローチでは解決できない難解な問題を解くために使用される普遍的な最適化アルゴリズムである。
本稿では,キャストに基づく新しい社会認知メタヒューリスティックの構築を目標とし,このアルゴリズムのいくつかのバージョンを時間遅延システムモデルの最適化に適用する。
論文 参考訳(メタデータ) (2022-10-23T22:21:10Z) - Interactive Evolutionary Multi-Objective Optimization via
Learning-to-Rank [8.421614560290609]
本稿では,関心の解(SOI)を対話的に見つけるために,嗜好に基づくEMOアルゴリズムを設計するためのフレームワークを開発する。
EMOの中核となる考え方は、人間をEMOのループに巻き込むことだ。何回か繰り返すと、DMは数人の現職候補者に対してフィードバックを求めるよう招待される。
このような情報を集めることで、彼女の好みは学習からランクまでニューラルネットワークによって徐々に学習され、次にベースラインEMOアルゴリズムを導出するために応用される。
論文 参考訳(メタデータ) (2022-04-06T06:34:05Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。