論文の概要: Reinforcement Learning for Self-Healing Material Systems
- arxiv url: http://arxiv.org/abs/2511.18728v1
- Date: Mon, 24 Nov 2025 03:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.001218
- Title: Reinforcement Learning for Self-Healing Material Systems
- Title(参考訳): セルフヒーリング材料システムの強化学習
- Authors: Maitreyi Chatterjee, Devansh Agarwal, Biplab Chatterjee,
- Abstract要約: 本研究は、マルコフ決定プロセス(MDP)における強化学習問題として自己修復過程を考察し、エージェントが最適なポリシーを自律的に導出できるようにする。
シミュレーション環境下での離散作用(Q-learning, DQN)と連続作用(TD3)の比較評価により, RLコントローラはベースラインを著しく上回り, ほぼ完全な材料回収を実現していることがわかった。
- 参考スコア(独自算出の注目度): 0.40334315349753025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transition to autonomous material systems necessitates adaptive control methodologies to maximize structural longevity. This study frames the self-healing process as a Reinforcement Learning (RL) problem within a Markov Decision Process (MDP), enabling agents to autonomously derive optimal policies that efficiently balance structural integrity maintenance against finite resource consumption. A comparative evaluation of discrete-action (Q-learning, DQN) and continuous-action (TD3) agents in a stochastic simulation environment revealed that RL controllers significantly outperform heuristic baselines, achieving near-complete material recovery. Crucially, the TD3 agent utilizing continuous dosage control demonstrated superior convergence speed and stability, underscoring the necessity of fine-grained, proportional actuation in dynamic self-healing applications.
- Abstract(参考訳): 自律的な物質システムへの移行は、構造的寿命を最大化するために適応制御手法を必要とする。
本研究は、マルコフ決定プロセス(MDP)における強化学習(Reinforcement Learning, RL)問題として自己修復プロセスの枠組みを定め、エージェントが有限資源消費に対する構造的整合性維持を効率的にバランスさせる最適なポリシーを自律的に導出できるようにする。
確率的シミュレーション環境下での離散作用(Q-learning, DQN)と連続作用(TD3)の比較評価により, RLコントローラはヒューリスティックベースラインを著しく上回り, ほぼ完全な材料回収を実現していることがわかった。
重要なことに、連続量制御を利用したTD3エージェントは収束速度と安定性が優れており、動的自己修復の応用において微細で比例的な運動の必要性が強調された。
関連論文リスト
- Resilient by Design -- Active Inference for Distributed Continuum Intelligence [6.2095604527397485]
本稿では,DCCシステムのレジリエンスを実現するための確率的アクティブ・推論・レジリエンス・エージェント(PAIR-Agent)を提案する。
PAIR-Agentは、デバイスログから因果断層グラフを構築すること、(ii)マルコフ毛布と自由エネルギー原理を用いて不確かさと不確実性を管理しながら障害を識別すること、(iii)アクティブ推論によって自律的に問題を修復すること、の3つのコアオペレーションを実行する。
論文 参考訳(メタデータ) (2025-11-10T15:30:44Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Incorporating Recurrent Reinforcement Learning into Model Predictive
Control for Adaptive Control in Autonomous Driving [11.67417895998434]
モデル予測制御(MPC)は、強力な制御技術として自律運転タスクに大きな注目を集めている。
本稿では,この問題を部分的に観測されたマルコフ決定過程(POMDP)として再検討する。
次に、最適かつ適応的な制御のために、リカレント強化学習(RRL)を通して、動的モデルのパラメータを継続的に適応させるリカレントポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-30T22:11:07Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。