論文の概要: Discounting in Strategy Logic
- arxiv url: http://arxiv.org/abs/2305.15256v1
- Date: Wed, 24 May 2023 15:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:50:53.737403
- Title: Discounting in Strategy Logic
- Title(参考訳): 戦略論理における分散
- Authors: Munyque Mittelmann, Aniello Murano, Laurent Perrussel
- Abstract要約: SLdisc[D] と表記される一連の割引関数 D に対して、将来の割引でStrategy Logic を拡張する。
モデルチェックを行うSLdisc[D]-formulasの複雑さについて検討する。
- 参考スコア(独自算出の注目度): 8.295493796476766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discounting is an important dimension in multi-agent systems as long as we
want to reason about strategies and time. It is a key aspect in economics as it
captures the intuition that the far-away future is not as important as the near
future. Traditional verification techniques allow to check whether there is a
winning strategy for a group of agents but they do not take into account the
fact that satisfying a goal sooner is different from satisfying it after a long
wait. In this paper, we augment Strategy Logic with future discounting over a
set of discounted functions D, denoted SLdisc[D]. We consider "until" operators
with discounting functions: the satisfaction value of a specification in
SLdisc[D] is a value in [0, 1], where the longer it takes to fulfill
requirements, the smaller the satisfaction value is. We motivate our approach
with classical examples from Game Theory and study the complexity of
model-checking SLdisc[D]-formulas.
- Abstract(参考訳): マルチエージェントシステムでは、戦略や時間について推論したい限り、分散は重要な次元です。
遠い未来が近い将来ほど重要でないという直感を捉えているため、経済学における重要な側面である。
従来の検証手法では、エージェントの集団に勝利戦略があるかどうかを確認することができるが、目標を早く満たすことは、長い待ち時間後にそれを満足することとは異なるという事実を考慮に入れない。
本稿では, SLdisc[D] と表記される一連の割引関数 D に対して, 将来の割引でStrategy Logic を強化する。
SLdisc[D]の仕様の満足値は[0, 1]の値であり、要求を満たすのに要する時間が長いほど、満足値は小さくなる。
このアプローチをゲーム理論の古典的な例で動機付け、モデルチェックsldisc[d]-formulaの複雑さを研究します。
関連論文リスト
- Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - On The Expressivity of Objective-Specification Formalisms in
Reinforcement Learning [4.998202587873575]
強化学習における客観的特化形式の比較を行った。
形式主義は、支配的な表現力と、現在の技法で最適化するための単純さの両方を持たない。
結果は、報奨学習を多種多様なフォーマリズムに適応させる将来の研究の必要性を強調している。
論文 参考訳(メタデータ) (2023-10-18T09:46:01Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - The Alternating-Time \mu-Calculus With Disjunctive Explicit Strategies [1.7725414095035827]
同時ゲーム構造におけるエージェントの連立の戦略能力について検討する。
論理の重要な要素は、あるエージェントの連立が与えられた目標を強制するための共同戦略を持つことを示す経路定量化器である。
我々は, ATLES を固定点演算子と戦略解離で拡張し, 明示的な戦略で時相の $mu$-calculus に到達する。
論文 参考訳(メタデータ) (2023-05-30T07:16:59Z) - Empirical Investigation of Neural Symbolic Reasoning Strategies [31.692400722222278]
我々は、段階的な粒度と連鎖戦略の推論戦略を分解する。
推論戦略の選択がパフォーマンスに大きく影響していることが分かりました。
驚いたことに、一部の構成がほぼ完璧なパフォーマンスをもたらすこともわかりました。
論文 参考訳(メタデータ) (2023-02-16T08:49:47Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Logic Constraints to Feature Importances [17.234442722611803]
AIモデルの"ブラックボックス"の性質は、診断技術や自律的ガイドなど、高度な分野における信頼性の高い応用の限界であることが多い。
近年の研究では、適切な解釈可能性のレベルが、モデル信頼性というより一般的な概念を強制できることが示されている。
本論文の基本的な考え方は,特定のタスクにおける特徴の重要性に関する人間の事前知識を利用して,モデルの適合のフェーズを整合的に支援することである。
論文 参考訳(メタデータ) (2021-10-13T09:28:38Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。