論文の概要: Consistent Aggregation of Objectives with Diverse Time Preferences
Requires Non-Markovian Rewards
- arxiv url: http://arxiv.org/abs/2310.00435v1
- Date: Sat, 30 Sep 2023 17:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:19:29.544209
- Title: Consistent Aggregation of Objectives with Diverse Time Preferences
Requires Non-Markovian Rewards
- Title(参考訳): 非マルコフ的再帰を前提とした異時優先対象の一貫性集約
- Authors: Silviu Pitis
- Abstract要約: 報奨関数のマルコフ的アグリゲーションは、各目的に対する時間的選好が異なる場合、不可能である。
これは、最適多目的エージェントは、個々の目的に関してマルコフ的でない報酬を認めなければならないことを従う。
この研究は、シーケンシャルで多目的的なエージェンシーと時間的選択に関する新たな洞察を提供し、異なる時間的嗜好を持つ複数の世代のプリンシパルにサービスを提供するためにデプロイされるAIシステムの設計に実践的な意味を持つ。
- 参考スコア(独自算出の注目度): 7.9456318392035845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the capabilities of artificial agents improve, they are being increasingly
deployed to service multiple diverse objectives and stakeholders. However, the
composition of these objectives is often performed ad hoc, with no clear
justification. This paper takes a normative approach to multi-objective agency:
from a set of intuitively appealing axioms, it is shown that Markovian
aggregation of Markovian reward functions is not possible when the time
preference (discount factor) for each objective may vary. It follows that
optimal multi-objective agents must admit rewards that are non-Markovian with
respect to the individual objectives. To this end, a practical non-Markovian
aggregation scheme is proposed, which overcomes the impossibility with only one
additional parameter for each objective. This work offers new insights into
sequential, multi-objective agency and intertemporal choice, and has practical
implications for the design of AI systems deployed to serve multiple
generations of principals with varying time preference.
- Abstract(参考訳): 人工エージェントの能力が向上するにつれて、さまざまな目的や利害関係者にサービスを提供することがますます増えている。
しかし、これらの目的の合成は、明確な正当化なしにしばしばアドホックに行われる。
本稿では,多目的機関への規範的アプローチについて述べる。直観的にアピールする公理の集合から,各目的に対する時間的選好(計数因子)が変化する場合,マルコフ報酬関数のマルコフ集約は不可能であることが示されている。
最適な多目的エージェントは、個々の目的に関してマルコフ的でない報酬を承認しなければならない。
この目的のために、目的ごとに1つのパラメータを追加するだけで不可能を克服する実用的な非マルコフ集約スキームが提案されている。
この研究は、シーケンシャルで多目的的なエージェンシーと時間的選択に関する新たな洞察を提供し、異なる時間的嗜好を持つ複数の世代のプリンシパルにサービスを提供するためにデプロイされるAIシステムの設計に実践的な意味を持つ。
関連論文リスト
- Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts [38.95012734839997]
多目的アライメントは、大きな言語モデルの異なるアライメント目標のバランスと制御を目的としている。
MCA(Multi-objective Contrastive Alignemnt)を提案する。
論文 参考訳(メタデータ) (2024-08-09T14:36:42Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Multi-Target Multiplicity: Flexibility and Fairness in Target
Specification under Resource Constraints [76.84999501420938]
対象の選択が個人の結果にどのように影響するかを評価するための概念的および計算的枠組みを導入する。
目的変数選択から生じる多重度は, 1つのターゲットのほぼ最適モデルから生じるものよりも大きいことが示される。
論文 参考訳(メタデータ) (2023-06-23T18:57:14Z) - Alleviating Search Bias in Bayesian Evolutionary Optimization with Many
Heterogeneous Objectives [9.139734850798124]
異種目的(HE-MOP)を用いた多目的最適化問題に対処する。
高速な目的に対して探索バイアスを緩和する新たな獲得関数を提案する。
提案アルゴリズムの有効性を,多目的・多目的のベンチマーク問題で検証することによって実証する。
論文 参考訳(メタデータ) (2022-08-25T17:07:40Z) - Inferring Lexicographically-Ordered Rewards from Preferences [82.42854687952115]
本稿では,エージェントの観察された嗜好の多目的報酬に基づく表現を推定する手法を提案する。
我々は,異なる目的に対するエージェントの優先順位を語彙的入力としてモデル化することにより,エージェントがより高い優先順位を持つ目的に対して無関心である場合に限って,より低い優先順位を持つ目的が重要となるようにした。
論文 参考訳(メタデータ) (2022-02-21T12:01:41Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - From STL Rulebooks to Rewards [4.859570041295978]
本稿では,多目的の強化学習のための報酬形成のための原則的アプローチを提案する。
まずSTLに新しい定量的セマンティクスを組み、個々の要求を自動的に評価する。
次に,複数の要件の評価を1つの報酬に体系的に組み合わせる手法を開発した。
論文 参考訳(メタデータ) (2021-10-06T14:16:59Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。