Fugu-MT 論文翻訳(概要): How to discretize continuous state-action spaces in Q-learning: A symbolic control approach

論文の概要: How to discretize continuous state-action spaces in Q-learning: A symbolic control approach

arxiv url: http://arxiv.org/abs/2406.01548v3
Date: Wed, 5 Jun 2024 22:58:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 19:54:03.339551
Title: How to discretize continuous state-action spaces in Q-learning: A symbolic control approach
Title（参考訳）: Qラーニングにおける連続状態行動空間の識別方法--シンボリック・コントロール・アプローチ
Authors: Sadek Belamfedel Alaoui, Adnane Saoud,
Abstract要約: 本稿では,空間離散化法における大きな欠点を浮き彫りにした系統解析について述べる。この課題に対処するために,行動関係を表す記号モデルを提案する。この関係により、オリジナルのシステムへの抽象化に基づいて、合成されたコントローラをシームレスに適用することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Q-learning is widely recognized as an effective approach for synthesizing controllers to achieve specific goals. However, handling challenges posed by continuous state-action spaces remains an ongoing research focus. This paper presents a systematic analysis that highlights a major drawback in space discretization methods. To address this challenge, the paper proposes a symbolic model that represents behavioral relations, such as alternating simulation from abstraction to the controlled system. This relation allows for seamless application of the synthesized controller based on abstraction to the original system. Introducing a novel Q-learning technique for symbolic models, the algorithm yields two Q-tables encoding optimal policies. Theoretical analysis demonstrates that these Q-tables serve as both upper and lower bounds on the Q-values of the original system with continuous spaces. Additionally, the paper explores the correlation between the parameters of the space abstraction and the loss in Q-values. The resulting algorithm facilitates achieving optimality within an arbitrary accuracy, providing control over the trade-off between accuracy and computational complexity. The obtained results provide valuable insights for selecting appropriate learning parameters and refining the controller. The engineering relevance of the proposed Q-learning based symbolic model is illustrated through two case studies.
Abstract（参考訳）: Q-ラーニングは、特定の目標を達成するためにコントローラを合成する効果的なアプローチとして広く認識されている。しかし、継続的な状態-作用空間によって引き起こされる課題への対処は現在も研究の焦点となっている。本稿では,空間離散化法における大きな欠点を浮き彫りにした系統解析について述べる。この課題に対処するため,本論文では,抽象から制御システムへのシミュレーションの交互化など,行動関係を表現するシンボリックモデルを提案する。この関係により、オリジナルのシステムへの抽象化に基づいて、合成されたコントローラをシームレスに適用することができる。シンボリックモデルのための新しいQ-ラーニング手法を導入し、最適なポリシーを符号化する2つのQ-テーブルを生成する。理論解析により、これらのQ-テーブルは、連続空間を持つ元の系のQ-値の上界と下界の両方として機能することを示した。さらに,空間抽象のパラメータとQ値の損失との相関について検討した。このアルゴリズムは任意の精度で最適性を達成し、精度と計算複雑性の間のトレードオフを制御する。得られた結果は、適切な学習パラメータを選択し、コントローラを洗練するための貴重な洞察を提供する。提案したQ-ラーニングに基づく記号モデルの工学的妥当性を2つのケーススタディで示す。

関連論文リスト

Benchmarking Abstract and Reasoning Abilities Through A Theoretical Perspective [59.7140089198992]
抽象的推論を本質的なパターンを抽出する能力として定義する数学的枠組みを開発する。基本的な推論精度を計測する(scoreGamma)と、特定のシンボルに依存するモデルの定量化(scoreDelta)である。
論文参考訳（メタデータ） (2025-05-28T09:02:45Z)
Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文参考訳（メタデータ） (2025-04-30T05:26:51Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
Transfer Learning for Control Systems via Neural Simulation Relations [5.234181168765602]
本稿では、ソース制御システムからターゲット制御システムへ制御ロジックを効果的に転送することに焦点を当てる。我々は、2つのシステムの挙動間の観測的等価性を特徴付けるために(近似的な)シミュレーション関係を用いる。また, 条件が満たされれば, 対応する制御器を備えた2つのシステムの出力のクローズネスが保証される, 妥当性条件も導入する。
論文参考訳（メタデータ） (2024-12-02T18:34:35Z)
Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。 VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文参考訳（メタデータ） (2024-08-13T00:34:33Z)
Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文参考訳（メタデータ） (2024-07-24T12:26:21Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文参考訳（メタデータ） (2023-11-05T12:03:58Z)
Convex Q Learning in a Stochastic Environment: Extended Version [1.680268810119084]
本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。この理論は古典的な在庫管理問題への応用として説明されている。
論文参考訳（メタデータ） (2023-09-10T18:24:43Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)
An Optimization-based Deep Equilibrium Model for Hyperspectral Image Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文参考訳（メタデータ） (2023-06-10T08:25:16Z)
On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文参考訳（メタデータ） (2023-02-05T01:39:21Z)
Task-Oriented Sensing, Computation, and Communication Integration for Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文参考訳（メタデータ） (2022-07-03T06:57:07Z)
Symbolic Abstractions From Data: A PAC Learning Approach [0.42603120588176624]
記号制御技術は複雑な論理仕様を満たすことを目指している。シンボリック抽象を計算するために使用されるメソッドは、正確な閉形式モデルの知識を必要とする。我々はクローズドフォームダイナミクスを必要としない新しいデータ駆動アプローチを提案する。
論文参考訳（メタデータ） (2021-04-28T17:34:28Z)
Latent Space Data Assimilation by using Deep Learning [0.0]
データ同化(DA)を低コストで行うことは、地球系のモデリングにおいて主要な関心事である。 daフレームワークにディープラーニング(dl)メソッドを組み込んでいます。本稿では,オートエンコーダ(AE)による潜時構造を利用して,モデル誤差(ETKF-Q)を潜時空間に有するEnsemble Transform Kalman Filterを設計する。
論文参考訳（メタデータ） (2021-04-01T12:25:55Z)
Closed Loop Neural-Symbolic Learning via Integrating Neural Perception, Grammar Parsing, and Symbolic Reasoning [134.77207192945053]
従来の手法は強化学習アプローチを用いてニューラルシンボリックモデルを学ぶ。我々は,脳神経知覚と記号的推論を橋渡しする前に,textbfgrammarモデルをテキストシンボリックとして導入する。本稿では,トップダウンのヒューマンライクな学習手順を模倣して誤りを伝播する新しいtextbfback-searchアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-11T17:42:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。