論文の概要: LTLf Adaptive Synthesis for Multi-Tier Goals in Nondeterministic Domains
- arxiv url: http://arxiv.org/abs/2504.20983v1
- Date: Tue, 29 Apr 2025 17:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.027941
- Title: LTLf Adaptive Synthesis for Multi-Tier Goals in Nondeterministic Domains
- Title(参考訳): 非決定論的領域におけるマルチティアゴールのLTLf適応合成
- Authors: Giuseppe De Giacomo, Gianmarco Parretti, Shufang Zhu,
- Abstract要約: 多層目標を達成するための適応戦略を合成する合成関数の変種について検討する。
完全かつ健全な適応戦略を計算するためのゲーム理論技術を提供する。
- 参考スコア(独自算出の注目度): 24.117872352200948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a variant of LTLf synthesis that synthesizes adaptive strategies for achieving a multi-tier goal, consisting of multiple increasingly challenging LTLf objectives in nondeterministic planning domains. Adaptive strategies are strategies that at any point of their execution (i) enforce the satisfaction of as many objectives as possible in the multi-tier goal, and (ii) exploit possible cooperation from the environment to satisfy as many as possible of the remaining ones. This happens dynamically: if the environment cooperates (ii) and an objective becomes enforceable (i), then our strategies will enforce it. We provide a game-theoretic technique to compute adaptive strategies that is sound and complete. Notably, our technique is polynomial, in fact quadratic, in the number of objectives. In other words, it handles multi-tier goals with only a minor overhead compared to standard LTLf synthesis.
- Abstract(参考訳): 非決定論的計画領域における複数の挑戦的LTLf目標からなる多層目標を達成するための適応戦略を合成するLTLf合成の変種について検討する。
適応戦略は実行のどの時点でも戦略である
(i)多層目標において可能な限り多くの目標の満足度を強制し、
二 環境からの協力を生かして、残りをできるだけ多く満たすこと。
これは動的に起こる:環境が協力すれば
二) 目的が強制可能となること
(i) ならば、我々の戦略はそれを強制する。
完全かつ健全な適応戦略を計算するためのゲーム理論技術を提供する。
特に、我々の手法は多項式であり、実際には2次であり、目的の個数である。
言い換えれば、標準的なTLLf合成と比較して、ほんのわずかのオーバーヘッドで多層目標を処理する。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning [8.593384839118658]
多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。
正確な学習プロセスを形式化し実行することの難しさに悩まされる。
本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T03:47:40Z) - Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning [72.46388818127105]
Conditional Language Policy (CLP) は、複数の目的に対して言語モデルを微調整するためのフレームワークである。
CLPは、推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶ。
論文 参考訳(メタデータ) (2024-07-22T16:13:38Z) - Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。
制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - TOP-Training: Target-Oriented Pretraining for Medical Extractive Question Answering [53.92585020805746]
医学領域における抽出的質問応答に関する研究(医学EQA)
この問題には、(i)ドメイン特異性と(ii)抽出に基づく回答スタイルの2つの主な課題がある。
対象指向の事前学習パラダイムであるTOP-Trainingを提案する。
論文 参考訳(メタデータ) (2023-10-25T20:48:16Z) - LTLf Best-Effort Synthesis in Nondeterministic Planning Domains [27.106071554421664]
完全可観測非決定性領域(FOND)におけるベストエフォート戦略(いわゆる計画)について検討する。
非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論合成手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T10:10:41Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - From STL Rulebooks to Rewards [4.859570041295978]
本稿では,多目的の強化学習のための報酬形成のための原則的アプローチを提案する。
まずSTLに新しい定量的セマンティクスを組み、個々の要求を自動的に評価する。
次に,複数の要件の評価を1つの報酬に体系的に組み合わせる手法を開発した。
論文 参考訳(メタデータ) (2021-10-06T14:16:59Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。