論文の概要: Structured Reinforcement Learning for Combinatorial Decision-Making
- arxiv url: http://arxiv.org/abs/2505.19053v1
- Date: Sun, 25 May 2025 09:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.865754
- Title: Structured Reinforcement Learning for Combinatorial Decision-Making
- Title(参考訳): 組合せ決定処理のための構造化強化学習
- Authors: Heiko Hoppe, Léo Baty, Louis Bouvier, Axel Parmentier, Maximilian Schiffer,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、複雑で構造化された決定を伴う現実的な問題に適用される。
本稿では,アクターニューラルネットワークに最適化レイヤを組み込む新しいアクター批判フレームワークであるStructured Reinforcement Learning (SRL)を提案する。
- 参考スコア(独自算出の注目度): 3.3484462092188005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is increasingly applied to real-world problems involving complex and structured decisions, such as routing, scheduling, and assortment planning. These settings challenge standard RL algorithms, which struggle to scale, generalize, and exploit structure in the presence of combinatorial action spaces. We propose Structured Reinforcement Learning (SRL), a novel actor-critic framework that embeds combinatorial optimization layers into the actor neural network. We enable end-to-end learning of the actor via Fenchel-Young losses and provide a geometric interpretation of SRL as a primal-dual algorithm in the dual of the moment polytope. Across six environments with exogenous and endogenous uncertainty, SRL matches or surpasses the performance of unstructured RL and imitation learning on static tasks and improves over these baselines by up to 92% on dynamic problems, with improved stability and convergence speed.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ルーティングやスケジューリング、アソシエーション計画といった、複雑で構造化された決定を伴う現実的な問題に対して、ますます適用されつつある。
これらの設定は、組合せアクション空間の存在下で構造を拡大、一般化、活用するのに苦労する標準RLアルゴリズムに挑戦する。
本研究では,アクターニューラルネットワークに組合せ最適化層を組み込んだ新しいアクター批判型フレームワークであるStructured Reinforcement Learning (SRL)を提案する。
我々は、Fenchel-Young損失によるアクターのエンドツーエンド学習を可能にし、モーメントポリトープの双対における原始双対アルゴリズムとしてのSRLの幾何学的解釈を提供する。
外因性および内因性不確実性を持つ6つの環境において、SRLは非構造的RLの性能と静的タスクにおける模倣学習とを一致または超越し、安定性と収束速度を改善し、これらのベースラインを最大92%改善する。
関連論文リスト
- Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
共同最適化のための統一RLステージとタスク固有の拡張のための改良RLステージからなる協調強化学習フレームワークであるtextbfCoRLを紹介する。
得られたモデルである textbfULM-R1 は、3つのテキスト・画像生成データセットで textbf7% を、9つのマルチモーダル理解ベンチマークで textbf23% を平均的に改善する。
論文 参考訳(メタデータ) (2025-05-23T06:41:07Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。