論文の概要: Policy-Based Radiative Transfer: Solving the $2$-Level Atom Non-LTE Problem using Soft Actor-Critic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.15679v1
- Date: Tue, 22 Apr 2025 08:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 21:39:42.808393
- Title: Policy-Based Radiative Transfer: Solving the $2$-Level Atom Non-LTE Problem using Soft Actor-Critic Reinforcement Learning
- Title(参考訳): 政策に基づく放射移動:ソフトアクター・クリティカル強化学習を用いた2ドルレベル原子非LTE問題の解法
- Authors: Brandon Panos, Ivan Milic,
- Abstract要約: 本稿では,古典的2レベル原子非LTE放射伝達問題の解法として,新しい強化学習法を提案する。
エージェントのポリシーは、放射移動エンジンとの報酬ベースの相互作用によって完全に最適化される。
実験を通して、単純なフィードフォワードニューラルネットワークは、SEに対して、おそらく問題の移動目標の性質のために、厳密に訓練されただけでは解決できないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel reinforcement learning (RL) approach for solving the classical 2-level atom non-LTE radiative transfer problem by framing it as a control task in which an RL agent learns a depth-dependent source function $S(\tau)$ that self-consistently satisfies the equation of statistical equilibrium (SE). The agent's policy is optimized entirely via reward-based interactions with a radiative transfer engine, without explicit knowledge of the ground truth. This method bypasses the need for constructing approximate lambda operators ($\Lambda^*$) common in accelerated iterative schemes. Additionally, it requires no extensive precomputed labeled datasets to extract a supervisory signal, and avoids backpropagating gradients through the complex RT solver itself. Finally, we show through experiment that a simple feedforward neural network trained greedily cannot solve for SE, possibly due to the moving target nature of the problem. Our $\Lambda^*-\text{Free}$ method offers potential advantages for complex scenarios (e.g., atmospheres with enhanced velocity fields, multi-dimensional geometries, or complex microphysics) where $\Lambda^*$ construction or solver differentiability is challenging. Additionally, the agent can be incentivized to find more efficient policies by manipulating the discount factor, leading to a reprioritization of immediate rewards. If demonstrated to generalize past its training data, this RL framework could serve as an alternative or accelerated formalism to achieve SE. To the best of our knowledge, this study represents the first application of reinforcement learning in solar physics that directly solves for a fundamental physical constraint.
- Abstract(参考訳): 本稿では,従来の2レベル原子非LTE放射伝達問題の解法として,RLエージェントが深度依存ソース関数$S(\tau)$を学習する制御タスクとして,従来の2レベル原子非LTE放射伝達問題の解法を提案する。
エージェントのポリシーは、基礎的な真実を明示的に知ることなく、放射移動エンジンとの報酬ベースの相互作用によって完全に最適化される。
この方法は、加速反復スキームで共通する近似ラムダ演算子(\Lambda^*$)を構築する必要性を回避している。
さらに、オーバシリ信号を抽出するために、広範囲の事前計算されたラベル付きデータセットを必要とせず、複雑なRTソルバ自体によるバックプロパゲート勾配を回避する。
最後に、実験を通して、単純なフィードフォワードニューラルネットワークはSEに対して、おそらく問題の移動目標の性質のために、厳密に訓練されただけでは解決できないことを示す。
我々の$\Lambda^*-\text{Free}$メソッドは、複雑なシナリオ(例えば、拡張速度場、多次元ジオメトリー、複雑なマイクロフィジカル)に対して、$\Lambda^*$の構築や解法微分が困難であるような潜在的な利点を提供する。
さらに、ディスカウントファクターを操作することにより、より効率的なポリシーを見つけるためのインセンティブを得ることができ、即時報酬の優先順位付けにつながる。
トレーニングデータ過去の一般化を実証すれば、このRLフレームワークはSEを達成するための代替または加速フォーマリズムとして機能する可能性がある。
我々の知る限りでは、この研究は太陽物理学における強化学習の最初の応用であり、基本的な物理的制約を直接解決するものである。
関連論文リスト
- Learning While Repositioning in On-Demand Vehicle Sharing Networks [4.724825031148413]
我々は、一方通行のオンデマンド車両共有サービスによるネットワーク在庫問題を考える。
自然なリプシッツ帯域法が$widetildeO(Tfracnn+1)$の後悔の保証を達成できることを示し、これは$n$に対する指数的依存に悩まされる。
これらの課題に乗じて、検閲された需要のみに依存するオンライン・グラディエント・リポジション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-31T15:16:02Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。
我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T03:48:26Z) - Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning [1.52292571922932]
強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-26T07:49:38Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。