論文の概要: Multi-Objective Planning with Contextual Lexicographic Reward Preferences
- arxiv url: http://arxiv.org/abs/2502.10476v1
- Date: Thu, 13 Feb 2025 19:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:56.766211
- Title: Multi-Objective Planning with Contextual Lexicographic Reward Preferences
- Title(参考訳): 文脈レキシコグラフィーによる多目的計画
- Authors: Pulkit Rustagi, Yashwanthi Anand, Sandhya Saisubramanian,
- Abstract要約: 本稿では,コンテキストに応じて,様々な語彙的対象順序で計画を可能にする枠組みを提案する。
CLMDPでは、状態における目的順序と関連する報酬関数の両方がコンテキストによって決定される。
CLMDPを解くアルゴリズムは、まず、目的の注文ごとにポリシーを計算し、それらを単一のコンテキスト対応ポリシーに結合する。
- 参考スコア(独自算出の注目度): 5.207917381770368
- License:
- Abstract: Autonomous agents are often required to plan under multiple objectives whose preference ordering varies based on context. The agent may encounter multiple contexts during its course of operation, each imposing a distinct lexicographic ordering over the objectives, with potentially different reward functions associated with each context. Existing approaches to multi-objective planning typically consider a single preference ordering over the objectives, across the state space, and do not support planning under multiple objective orderings within an environment. We present Contextual Lexicographic Markov Decision Process (CLMDP), a framework that enables planning under varying lexicographic objective orderings, depending on the context. In a CLMDP, both the objective ordering at a state and the associated reward functions are determined by the context. We employ a Bayesian approach to infer a state-context mapping from expert trajectories. Our algorithm to solve a CLMDP first computes a policy for each objective ordering and then combines them into a single context-aware policy that is valid and cycle-free. The effectiveness of the proposed approach is evaluated in simulation and using a mobile robot.
- Abstract(参考訳): 自律エージェントは、コンテキストによって好みの順序が変わる複数の目的の下で計画する必要があることが多い。
エージェントはその操作中に複数のコンテキストに遭遇し、それぞれがそれぞれのコンテキストに関連付けられた潜在的に異なる報酬関数を持つ目的に対して異なる語彙順を付与する。
既存の多目的計画へのアプローチは、通常、状態空間全体にわたって、目的よりも単一の優先順序を考慮し、環境内の複数の目的順序の下での計画をサポートしない。
本稿では,文脈によって異なる語彙的対象順序の下での計画を可能にするフレームワークであるCLMDP(Contextual Lexicographic Markov Decision Process)を提案する。
CLMDPでは、状態における目的順序と関連する報酬関数の両方がコンテキストによって決定される。
専門的軌跡から状態コンテキストマッピングを推測するためにベイズ的手法を用いる。
CLMDPを解くアルゴリズムは、まず、目的の順序ごとにポリシーを計算し、その後、それらを有効かつサイクルフリーな単一のコンテキスト対応ポリシーに結合する。
提案手法の有効性をシミュレーションおよび移動ロボットを用いて評価した。
関連論文リスト
- Preference-Based Planning in Stochastic Environments: From Partially-Ordered Temporal Goals to Most Preferred Policies [25.731912021122287]
マルコフ決定過程としてモデル化されたシステムは、時間的に拡張された一連の目標に対して部分的に順序づけられた選好を考慮に入れている。
部分的に順序づけられた選好を計画するために、時間的目標に対する選好をMDPの政策に対する選好にマッピングする順序理論を導入する。
順序付けの下で最も好まれるポリシーは、MDP内の有限経路上の非支配確率分布を誘導する。
論文 参考訳(メタデータ) (2024-03-27T02:46:09Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals [22.77805882908817]
マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。
本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。
構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
論文 参考訳(メタデータ) (2022-09-25T17:13:24Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - Learning Models as Functionals of Signed-Distance Fields for
Manipulation Planning [51.74463056899926]
本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する,最適化に基づく操作計画フレームワークを提案する。
オブジェクトを符号付き距離場として表現することは、ポイントクラウドや占有率の表現よりも高い精度で、様々なモデルの学習と表現を可能にする。
論文 参考訳(メタデータ) (2021-10-02T12:36:58Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z) - Parallel processor scheduling: formulation as multi-objective linguistic
optimization and solution using Perceptual Reasoning based methodology [13.548237279353408]
スケジューリングポリシの目的は、生産時間やコストなど、目標の最適な値を達成することです。
専門家は一般的に、言語用語や言葉の様々なスケジューリング基準(スケジューリングポリシーを含む)について意見を提供する。
また,PR法と2-tuple法との比較を行った。
論文 参考訳(メタデータ) (2020-04-30T17:04:49Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。