論文の概要: Context-Sensitive Abstractions for Reinforcement Learning with Parameterized Actions
- arxiv url: http://arxiv.org/abs/2512.20831v1
- Date: Tue, 23 Dec 2025 23:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.629758
- Title: Context-Sensitive Abstractions for Reinforcement Learning with Parameterized Actions
- Title(参考訳): パラメータ化行動を用いた強化学習のための文脈知覚的抽象化
- Authors: Rashmeet Kaur Nayyar, Naman Shah, Siddharth Srivastava,
- Abstract要約: 本稿では,強化学習アルゴリズムの範囲をパラメータ化した長軸,スパース・リワード設定に拡張する。
学習中にこれらの抽象化を段階的に洗練するアルゴリズムを導入し、状態-作用空間の臨界領域において細かな詳細さを増大させる。
いくつかの連続状態、パラメータ化アクション領域において、TD($$)は最先端のベースラインよりもはるかに高いサンプリング効率を実現することができる。
- 参考スコア(独自算出の注目度): 22.730282038941382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world sequential decision-making often involves parameterized action spaces that require both, decisions regarding discrete actions and decisions about continuous action parameters governing how an action is executed. Existing approaches exhibit severe limitations in this setting -- planning methods demand hand-crafted action models, and standard reinforcement learning (RL) algorithms are designed for either discrete or continuous actions but not both, and the few RL methods that handle parameterized actions typically rely on domain-specific engineering and fail to exploit the latent structure of these spaces. This paper extends the scope of RL algorithms to long-horizon, sparse-reward settings with parameterized actions by enabling agents to autonomously learn both state and action abstractions online. We introduce algorithms that progressively refine these abstractions during learning, increasing fine-grained detail in the critical regions of the state-action space where greater resolution improves performance. Across several continuous-state, parameterized-action domains, our abstraction-driven approach enables TD($λ$) to achieve markedly higher sample efficiency than state-of-the-art baselines.
- Abstract(参考訳): 実世界のシーケンシャルな意思決定は、しばしば、個別のアクションに関する決定と、アクションの実行方法を決定する継続的なアクションパラメータに関する決定の両方を必要とするパラメータ化されたアクション空間を含む。
計画手法は手作りのアクションモデルを必要としており、標準強化学習(RL)アルゴリズムは離散的または連続的なアクションのために設計されているが、どちらも設計されておらず、パラメータ化されたアクションを扱う数少ないRLメソッドは通常ドメイン固有のエンジニアリングに依存しており、これらの空間の潜伏構造を利用できない。
本稿では,RLアルゴリズムをパラメータ化アクションで長期的,スパース・リワードな設定に拡張し,エージェントがオンラインで状態と行動の抽象化を自律的に学習できるようにする。
学習中にこれらの抽象化を段階的に洗練するアルゴリズムを導入し、より高解像度で性能が向上する状態-作用空間の臨界領域において、きめ細かな詳細性を高める。
いくつかの連続状態、パラメータ化作用領域において、TD($λ$)は最先端のベースラインよりもはるかに高いサンプリング効率を達成することができる。
関連論文リスト
- DEAS: DEtached value learning with Action Sequence for Scalable Offline RL [46.40818333031899]
Action Sequence(DEAS)は、アクションシーケンスをバリュー学習に活用する、シンプルだが効果的なオフラインRLフレームワークである。
DEASはOGBenchの複雑な長期タスクのベースラインを一貫して上回る。
大規模ビジョン・ランゲージ・アクションモデルの性能向上に応用できる。
論文 参考訳(メタデータ) (2025-10-09T03:11:09Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Task-Specific Directions: Definition, Exploration, and Utilization in Parameter Efficient Fine-Tuning [65.31677646659895]
大規模な言語モデルは、下流タスクで素晴らしいパフォーマンスを示すが、全てのパラメータを完全に微調整する場合は、リソース消費がかなり必要である。
本稿では,タスク固有の方向(TSD)を明確に定義するフレームワークを提案し,その特性と実用化の課題について検討する。
次に、微調整過程におけるTLDの影響を最大化する新しいアプローチであるLoRA-Dashを導入する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:21:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。