Fugu-MT 論文翻訳(概要): Multi-Objective Controller Synthesis with Uncertain Human Preferences

論文の概要: Multi-Objective Controller Synthesis with Uncertain Human Preferences

arxiv url: http://arxiv.org/abs/2105.04662v1
Date: Mon, 10 May 2021 20:41:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-13 06:14:56.511324
Title: Multi-Objective Controller Synthesis with Uncertain Human Preferences
Title（参考訳）: 不確かさを考慮した多目的制御器の合成
Authors: Shenghui Chen, Kayla Boggess, David Parker, and Lu Feng
Abstract要約: 我々はマルコフ決定過程の多目的合成制御系において不確定な人間選好の概念を定式化する。提案手法は混合整数線形プログラミング(MILP)に基づいて,最適に許容されるマルチストラテジーを合成する。
参考スコア（独自算出の注目度）: 1.580774794371876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-objective controller synthesis concerns the problem of computing an optimal controller subject to multiple (possibly conflicting) objective properties. The relative importance of objectives is often specified by human decision-makers. However, there is inherent uncertainty in human preferences (e.g., due to different preference elicitation methods). In this paper, we formalize the notion of uncertain human preferences and present a novel approach that accounts for uncertain human preferences in the multi-objective controller synthesis for Markov decision processes (MDPs). Our approach is based on mixed-integer linear programming (MILP) and synthesizes a sound, optimally permissive multi-strategy with respect to a multi-objective property and an uncertain set of human preferences. Experimental results on a range of large case studies show that our MILP-based approach is feasible and scalable to synthesize sound, optimally permissive multi-strategies with varying MDP model sizes and uncertainty levels of human preferences. Evaluation via an online user study also demonstrates the quality and benefits of synthesized (multi-)strategies.
Abstract（参考訳）: 多目的コントローラ合成は、複数の(おそらく矛盾する)目的特性を考慮した最適コントローラの計算の問題に対処する。目標の相対的重要性は、しばしば人間の意思決定者によって規定される。しかし、人間の嗜好には本質的な不確実性がある(例えば、好みの選好方法が異なるため)。本稿では,不確定な人間の選好の概念を定式化し,マルコフ決定過程(mdps)の多目的コントローラ合成における不確実性を考慮した新しいアプローチを提案する。提案手法は混合整数線形プログラミング(MILP)に基づいて,多目的性および不確実な人間の嗜好に対して最適に許容されるマルチストラテジーを合成する。大規模事例実験の結果,mdpに基づくアプローチは,mdpモデルサイズや人間の好みの不確実性レベルが変化し,音を最適に許容するマルチストラテジーを合成する上で,実現可能かつスケーラブルであることが判明した。オンラインユーザスタディによる評価は、合成された(複数)ストラテジーの品質とメリットも示す。

関連論文リスト

Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models [19.559468441956714]
Reinforcement Learning from Human Feedbackは、大きな言語モデルと人間の好みを整合させる強力なテクニックとして登場した。人的価値アライメントは多目的最適化問題であり、潜在的な競合する対象の集合を最大化することを目的としている。我々は,LLMを様々な好み分布に整合させるために,多段降下を用いた新しい微調整パラダイムであるGAPOを紹介した。
論文参考訳（メタデータ） (2025-07-02T17:25:26Z)
Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。 RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T08:33:11Z)
Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。 LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文参考訳（メタデータ） (2025-05-08T06:59:06Z)
One Goal, Many Challenges: Robust Preference Optimization Amid Content-Aware and Multi-Source Noise [0.0]
本稿では,CNRPO(Content-Aware Noise-Resilient Preference Optimization)を提案する。バックドア攻撃機構を利用して、1つのモデル内で様々なノイズ源を効率よく学習し制御する。
論文参考訳（メタデータ） (2025-03-16T00:22:00Z)
Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-01T02:01:49Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Dynamic Detection of Relevant Objectives and Adaptation to Preference Drifts in Interactive Evolutionary Multi-Objective Optimization [2.4374097382908477]
意思決定過程を通じて進化し,目的の関連性に影響を与えるDM選好の動的性質について検討する。このような変化が起こると、時代遅れや相反する好みを解消する手法を提案する。実験により,提案手法は進化する嗜好を効果的に管理し,アルゴリズムが生成するソリューションの品質と望ましさを著しく向上することを示した。
論文参考訳（メタデータ） (2024-11-07T09:09:06Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling [34.32744849352087]
本研究では,人間の好みに合わせて,大規模言語モデルを逐次微調整する手法を提案する。理論的には閉形式最適SPOポリシーと損失関数を導出する。異なる大きさのLLMと複数の評価データセットの実証結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させることに成功した。
論文参考訳（メタデータ） (2024-05-21T12:47:17Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
End-to-End Learning for Fair Multiobjective Optimization Under Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文参考訳（メタデータ） (2024-02-12T16:33:35Z)
Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文参考訳（メタデータ） (2023-09-07T09:22:05Z)
Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning: A Dynamic Weight-based Approach [0.0]
多目的意思決定において、選好推論は、異なる目的のために意思決定者の選好を推測する過程である。本研究では,多目的意思決定問題に作用するエージェントの選好を推測する動的重みに基づく選好推論アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-27T11:55:07Z)
Preference-Aware Constrained Multi-Objective Bayesian Optimization [32.95116113569985]
本稿では,ブラックボックスの目的関数に対する制約付き多目的最適化の問題に対処し,入力空間の大部分を実現できない場合(すなわち制約に違反する場合)に,対象関数に対して具体的選好を行う。主な課題は、設計空間の巨大なサイズ、複数の目的と多数の制約、そして高価なシミュレーションを実行した後にのみ特定できる実行可能な入力設計のごく一部である。そこで本稿では,PAC-MOO(PAC-MOO)と呼ばれる制約付き複数目的ベイズ最適化手法を提案する。
論文参考訳（メタデータ） (2023-03-23T04:46:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。