論文の概要: Action-Driven Processes for Continuous-Time Control
- arxiv url: http://arxiv.org/abs/2510.26672v1
- Date: Thu, 30 Oct 2025 16:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.905756
- Title: Action-Driven Processes for Continuous-Time Control
- Title(参考訳): 継続的時間制御のためのアクション駆動プロセス
- Authors: Ruimin He, Shaowei Lin,
- Abstract要約: アクション駆動プロセスは、大規模で複雑なシステムを通して情報の流れを可能にする。
政策駆動型真の分布と報酬駆動型モデル分布とのクルバック・リーブラー分岐の最小化は、最大エントロピー強化学習と等価であることを示す。
- 参考スコア(独自算出の注目度): 0.19336815376402716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At the heart of reinforcement learning are actions - decisions made in response to observations of the environment. Actions are equally fundamental in the modeling of stochastic processes, as they trigger discontinuous state transitions and enable the flow of information through large, complex systems. In this paper, we unify the perspectives of stochastic processes and reinforcement learning through action- driven processes, and illustrate their application to spiking neural networks. Leveraging ideas from control-as-inference, we show that minimizing the Kullback-Leibler divergence between a policy-driven true distribution and a reward-driven model distribution for a suitably defined action-driven process is equivalent to maximum entropy reinforcement learning.
- Abstract(参考訳): 強化学習の中心は行動であり、環境の観察に対する決定である。
アクションは、不連続な状態遷移を引き起こし、大規模で複雑なシステムを通して情報の流れを可能にするため、確率過程のモデリングにおいて等しく基本的なものである。
本稿では,行動駆動型プロセスによる確率過程と強化学習の視点を統一し,そのスパイクニューラルネットワークへの応用を解説する。
コントロール・アズ・推論からアイデアを活用すれば、ポリシー駆動の真の分布と、適切に定義されたアクション駆動プロセスに対する報酬駆動モデル分布とのクルバック・リブラー分岐を最小化することは、最大エントロピー強化学習と等価であることを示す。
関連論文リスト
- StepWiser: Stepwise Generative Judges for Wiser Reasoning [52.32416311990343]
プロセス報酬モデルは、ステップバイステップのフィードバックを提供することによって、この問題に対処する。
近年の進歩に触発されて、分類タスクから推論タスク自体への段階的な報酬モデリングを再構築しました。
既存の手法よりも中間段階の精度が向上し, (ii) 訓練時の政策モデルの改善に利用でき, (iii) 推論時探索の改善が図られている。
論文 参考訳(メタデータ) (2025-08-26T17:45:05Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Learning Actionable World Models for Industrial Process Control [5.870452455598225]
効果的なAIシステムは、非常に限られたトレーニングデータから複雑なシステムの振る舞いについて学ぶ必要がある。
本稿では,学習した潜在表現においてプロセスパラメータをアンタングル化する新しい手法を提案する。
これにより、入力の変化から表現の変化を予測することができ、その逆も可能となり、プロセスのバリエーションに責任を負う重要な要因の解釈が容易になる。
論文 参考訳(メタデータ) (2025-03-03T11:05:44Z) - Amortized Network Intervention to Steer the Excitatory Point Processes [8.15558505134853]
動的グラフ上に発生する励起点過程(すなわちイベントフロー)は、時間と空間を通じて離散事象がどのように広がるかを把握するためのきめ細かいモデルを提供する。
動的グラフ構造を変更してイベントフローを効果的に操縦する方法は、感染症の拡散を抑制する動機となる興味深い問題である。
我々はAmortized Network Interventionsフレームワークを設計し、履歴やその他のコンテキストから最適なポリシーをプールできるようにする。
論文 参考訳(メタデータ) (2023-10-06T11:17:28Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - On Contrastive Representations of Stochastic Processes [53.21653429290478]
プロセスの表現を学習することは、機械学習の新たな問題である。
本手法は,周期関数,3次元オブジェクト,動的プロセスの表現の学習に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T11:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。