Fugu-MT 論文翻訳(概要): From STL Rulebooks to Rewards

論文の概要: From STL Rulebooks to Rewards

arxiv url: http://arxiv.org/abs/2110.02792v1
Date: Wed, 6 Oct 2021 14:16:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-07 22:13:57.906369
Title: From STL Rulebooks to Rewards
Title（参考訳）: STLルールブックからリワードへ
Authors: Edgar A. Aguilar, Luigi Berducci, Axel Brunnbauer, Radu Grosu, Dejan Ni\v{c}kovi\'c
Abstract要約: 本稿では,多目的の強化学習のための報酬形成のための原則的アプローチを提案する。まずSTLに新しい定量的セマンティクスを組み、個々の要求を自動的に評価する。次に,複数の要件の評価を1つの報酬に体系的に組み合わせる手法を開発した。
参考スコア（独自算出の注目度）: 4.859570041295978
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The automatic synthesis of neural-network controllers for autonomous agents through reinforcement learning has to simultaneously optimize many, possibly conflicting, objectives of various importance. This multi-objective optimization task is reflected in the shape of the reward function, which is most often the result of an ad-hoc and crafty-like activity. In this paper we propose a principled approach to shaping rewards for reinforcement learning from multiple objectives that are given as a partially-ordered set of signal-temporal-logic (STL) rules. To this end, we first equip STL with a novel quantitative semantics allowing to automatically evaluate individual requirements. We then develop a method for systematically combining evaluations of multiple requirements into a single reward that takes into account the priorities defined by the partial order. We finally evaluate our approach on several case studies, demonstrating its practical applicability.
Abstract（参考訳）: 強化学習による自律エージェントのためのニューラルネットワークコントローラの自動合成は、様々な重要な目的を同時に最適化する必要がある。この多目的最適化タスクは報酬関数の形に反映され、しばしばアドホックで工芸的な活動の結果である。本稿では,stl(signal-temporal-logic)ルールの半順序セットとして与えられた複数の目的から,強化学習のための報酬を形成するための原則的アプローチを提案する。この目的のために、我々はまずSTLに新しい定量的セマンティクスを装備し、個々の要求を自動的に評価する。そこで我々は,複数の要件の評価を1つの報酬に体系的に組み合わせ,部分順序で定義された優先順位を考慮した手法を開発した。我々は,本手法をいくつかのケーススタディで評価し,実用性を示す。

関連論文リスト

Preference-based Multi-Objective Reinforcement Learning [5.031225669460861]
本稿では、嗜好のMORLフレームワークへの統合を形式化した嗜好ベースのMORL(Pb-MORL)を紹介する。そこで本提案手法は,提案した嗜好に適合する多目的報酬モデルを構築する。ベンチマーク多目的タスク,マルチエネルギー管理タスク,および多線高速道路における自律運転タスクにおける実験結果から,本手法の競争力向上が示唆された。
論文参考訳（メタデータ） (2025-07-18T16:43:04Z)
Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。 RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T08:33:11Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning [8.593384839118658]
多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。正確な学習プロセスを形式化し実行することの難しさに悩まされる。本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T03:47:40Z)
C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文参考訳（メタデータ） (2024-10-03T06:13:56Z)
Multi-Objective Deep Reinforcement Learning for Optimisation in Autonomous Systems [3.2826250607043796]
MORL(Multi-Objective Reinforcement Learning)技術は存在するが、実世界のASシステムではなくRLベンチマークで採用されている。本研究では,DWN(Deep W-Learning)と呼ばれるMORL技術を用いて,実行時性能最適化のための最適構成を求める。我々はDWNとepsilon-greedyアルゴリズムとDeep Q-Networksの2つの単目的最適化実装を比較した。
論文参考訳（メタデータ） (2024-08-02T11:16:09Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文参考訳（メタデータ） (2022-09-19T12:15:31Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文参考訳（メタデータ） (2020-11-19T22:35:31Z)
Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文参考訳（メタデータ） (2020-06-17T03:58:25Z)
A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文参考訳（メタデータ） (2020-05-15T13:02:17Z)
A Unified Object Motion and Affinity Model for Online Multi-Object Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。 UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文参考訳（メタデータ） (2020-03-25T09:36:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。