Fugu-MT 論文翻訳(概要): Constrained Optimization of Charged Particle Tracking with Multi-Agent Reinforcement Learning

論文の概要: Constrained Optimization of Charged Particle Tracking with Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2501.05113v1
Date: Thu, 09 Jan 2025 09:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.464049
Title: Constrained Optimization of Charged Particle Tracking with Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習による荷電粒子追跡の制約付き最適化
Authors: Tobias Kortus, Ralf Keidel, Nicolas R. Gauger, Jan Kieseler,
Abstract要約: 画素化粒子検出器における粒子トラックの再構成に制約を課したマルチエージェント強化学習手法を提案する。提案手法は,多次元代入問題に対して機能するパラメトリケートポリシを協調的に最適化する。陽子イメージングのために開発された粒子検出器のために生成されたシミュレーションデータについて,複数の単一およびマルチエージェントベースラインと比較し,提案手法の有効性を実証的に示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning demonstrated immense success in modelling complex physics-driven systems, providing end-to-end trainable solutions by interacting with a simulated or real environment, maximizing a scalar reward signal. In this work, we propose, building upon previous work, a multi-agent reinforcement learning approach with assignment constraints for reconstructing particle tracks in pixelated particle detectors. Our approach optimizes collaboratively a parametrized policy, functioning as a heuristic to a multidimensional assignment problem, by jointly minimizing the total amount of particle scattering over the reconstructed tracks in a readout frame. To satisfy constraints, guaranteeing a unique assignment of particle hits, we propose a safety layer solving a linear assignment problem for every joint action. Further, to enforce cost margins, increasing the distance of the local policies predictions to the decision boundaries of the optimizer mappings, we recommend the use of an additional component in the blackbox gradient estimation, forcing the policy to solutions with lower total assignment costs. We empirically show on simulated data, generated for a particle detector developed for proton imaging, the effectiveness of our approach, compared to multiple single- and multi-agent baselines. We further demonstrate the effectiveness of constraints with cost margins for both optimization and generalization, introduced by wider regions with high reconstruction performance as well as reduced predictive instabilities. Our results form the basis for further developments in RL-based tracking, offering both enhanced performance with constrained policies and greater flexibility in optimizing tracking algorithms through the option for individual and team rewards.
Abstract（参考訳）: 強化学習は複雑な物理駆動システムをモデル化し、シミュレーションまたは実環境と相互作用し、スカラー報酬信号の最大化によってエンドツーエンドのトレーニング可能なソリューションを提供することで、大きな成功を収めた。そこで本研究では, 粒子検出装置における粒子トラックの再構成に制約を課したマルチエージェント強化学習手法を提案する。本手法は,複数次元配置問題に対するヒューリスティックとして機能するパラメタライズドポリシを協調的に最適化する。粒子ヒットの独特な割り当てを保証し,制約を満たすために,各関節動作に対して線形配置問題を解く安全層を提案する。さらに、コストマージンを強制し、オプティマイザマッピングの決定境界に対するローカルポリシー予測の距離を増大させるため、ブラックボックス勾配推定における追加のコンポーネントの使用を推奨し、総割り当てコストの低いソリューションにポリシーを強制する。陽子イメージングのために開発された粒子検出器のために生成されたシミュレーションデータについて,複数の単一およびマルチエージェントベースラインと比較し,提案手法の有効性を実証的に示す。さらに, 最適化と一般化の両面において, コストマージンによる制約の有効性を示す。我々の結果は、RLベースのトラッキングのさらなる発展の基礎を形成し、制約されたポリシーによるパフォーマンス向上と、個人とチーム報酬のオプションによるトラッキングアルゴリズムの最適化における柔軟性の両方を提供する。

関連論文リスト

Improved particle swarm optimization algorithm: multi-target trajectory optimization for swarm drones [20.531764063763678]
従来のParticle Swarm Optimization (PSO) 手法は、リアルタイムシナリオにおける早期収束と遅延に苦慮している。 PSOベースのオンライントラジェクトリプランナであるPE-PSOを提案する。遺伝的アルゴリズム(GA)に基づくタスク割り当てと分散PE-PSOを組み合わせたマルチエージェントフレームワークを開発した。
論文参考訳（メタデータ） (2025-07-18T04:31:49Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-25T13:39:45Z)
Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
DiffuSolve: Diffusion-based Solver for Non-convex Trajectory Optimization [9.28162057044835]
最適軌道局所は非線形および高次元力学系において計算コストが高い。本稿では,非次元オプティマ問題に対するDiffuに基づく一般モデルを提案する。また,新たな制約付き拡散モデルであるDiff+を提案する。
論文参考訳（メタデータ） (2024-02-22T03:52:17Z)
Adversarial Style Transfer for Robust Policy Optimization in Deep Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-08-29T18:17:35Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。軌道の適切な切り離しが性能向上に成功することを示す。
論文参考訳（メタデータ） (2023-05-07T19:41:57Z)
Differentiable Multi-Target Causal Bayesian Experimental Design [43.76697029708785]
本稿では,ベイズ最適設計問題に対する勾配に基づくアプローチを導入し,バッチ環境で因果モデルを学習する。既存の手法は、一連の実験を構築するためにグリーディ近似に依存している。そこで本稿では,最適介入対象ペアの集合を取得するための,概念的にシンプルな勾配に基づく最適化手法を提案する。
論文参考訳（メタデータ） (2023-02-21T11:32:59Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。 P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。 P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-05-24T06:15:51Z)
Multi-Agent Deep Reinforcement Learning in Vehicular OCC [14.685237010856953]
我々は車載OCCにおけるスペクトル効率最適化手法を提案する。我々は最適化問題をマルコフ決定プロセス(MDP)としてモデル化し、オンラインで適用可能なソリューションの利用を可能にする。提案手法の性能を広範囲なシミュレーションにより検証し,提案手法の様々な変種とランダムな手法との比較を行った。
論文参考訳（メタデータ） (2022-05-05T14:25:54Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文参考訳（メタデータ） (2020-06-22T03:13:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。