論文の概要: Reinforcement Learning for Self-Healing Material Systems
- arxiv url: http://arxiv.org/abs/2511.18728v1
- Date: Mon, 24 Nov 2025 03:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.001218
- Title: Reinforcement Learning for Self-Healing Material Systems
- Title(参考訳): セルフヒーリング材料システムの強化学習
- Authors: Maitreyi Chatterjee, Devansh Agarwal, Biplab Chatterjee,
- Abstract要約: 本研究は、マルコフ決定プロセス(MDP)における強化学習問題として自己修復過程を考察し、エージェントが最適なポリシーを自律的に導出できるようにする。
シミュレーション環境下での離散作用(Q-learning, DQN)と連続作用(TD3)の比較評価により, RLコントローラはベースラインを著しく上回り, ほぼ完全な材料回収を実現していることがわかった。
- 参考スコア(独自算出の注目度): 0.40334315349753025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transition to autonomous material systems necessitates adaptive control methodologies to maximize structural longevity. This study frames the self-healing process as a Reinforcement Learning (RL) problem within a Markov Decision Process (MDP), enabling agents to autonomously derive optimal policies that efficiently balance structural integrity maintenance against finite resource consumption. A comparative evaluation of discrete-action (Q-learning, DQN) and continuous-action (TD3) agents in a stochastic simulation environment revealed that RL controllers significantly outperform heuristic baselines, achieving near-complete material recovery. Crucially, the TD3 agent utilizing continuous dosage control demonstrated superior convergence speed and stability, underscoring the necessity of fine-grained, proportional actuation in dynamic self-healing applications.
- Abstract(参考訳): 自律的な物質システムへの移行は、構造的寿命を最大化するために適応制御手法を必要とする。
本研究は、マルコフ決定プロセス(MDP)における強化学習(Reinforcement Learning, RL)問題として自己修復プロセスの枠組みを定め、エージェントが有限資源消費に対する構造的整合性維持を効率的にバランスさせる最適なポリシーを自律的に導出できるようにする。
確率的シミュレーション環境下での離散作用(Q-learning, DQN)と連続作用(TD3)の比較評価により, RLコントローラはヒューリスティックベースラインを著しく上回り, ほぼ完全な材料回収を実現していることがわかった。
重要なことに、連続量制御を利用したTD3エージェントは収束速度と安定性が優れており、動的自己修復の応用において微細で比例的な運動の必要性が強調された。
関連論文リスト
- ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning [75.73135757250806]
エージェント強化学習(ARL)は、複雑で多段階の対話的なタスクを解決するためのトレーニングエージェントにとって有望なパラダイムとして急速に注目を集めている。
初期の成果を奨励しているにもかかわらず、ARLは非常に不安定であり、しばしばトレーニングの崩壊につながる。
本稿では,制御された再現可能な環境下でのトレーニング安定性を検証した,安定したトレーニングレシピと系統的分析フレームワークであるARLArenaを提案する。
論文 参考訳(メタデータ) (2026-02-25T03:43:34Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Bio-inspired Agentic Self-healing Framework for Resilient Distributed Computing Continuum Systems [4.003029907200818]
ReCiStは、分散コンピューティング継続システム(DCCS)のレジリエンスを実現するために設計された、バイオインスパイアされたエージェントによる自己修復フレームワークである。
ReCiStは、止血、炎症、増殖、再生の生物学的フェーズを、DCCSの包含、診断、メタ認知、知識の計算層に再構築する。
これら4つのレイヤは、自律的な障害分離、因果診断、適応的回復、言語モデル(LM)を利用した長期的な知識統合を行う。
論文 参考訳(メタデータ) (2026-01-01T13:30:38Z) - Resilient by Design -- Active Inference for Distributed Continuum Intelligence [6.2095604527397485]
本稿では,DCCシステムのレジリエンスを実現するための確率的アクティブ・推論・レジリエンス・エージェント(PAIR-Agent)を提案する。
PAIR-Agentは、デバイスログから因果断層グラフを構築すること、(ii)マルコフ毛布と自由エネルギー原理を用いて不確かさと不確実性を管理しながら障害を識別すること、(iii)アクティブ推論によって自律的に問題を修復すること、の3つのコアオペレーションを実行する。
論文 参考訳(メタデータ) (2025-11-10T15:30:44Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Incorporating Recurrent Reinforcement Learning into Model Predictive
Control for Adaptive Control in Autonomous Driving [11.67417895998434]
モデル予測制御(MPC)は、強力な制御技術として自律運転タスクに大きな注目を集めている。
本稿では,この問題を部分的に観測されたマルコフ決定過程(POMDP)として再検討する。
次に、最適かつ適応的な制御のために、リカレント強化学習(RRL)を通して、動的モデルのパラメータを継続的に適応させるリカレントポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-30T22:11:07Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - A Reinforcement Learning-based Economic Model Predictive Control
Framework for Autonomous Operation of Chemical Reactors [0.5735035463793008]
本研究では,非線形系のオンラインモデルパラメータ推定のためのEMPCとRLを統合するための新しいフレームワークを提案する。
最先端のRLアルゴリズムとEMPCスキームを最小限の修正で使用できます。
論文 参考訳(メタデータ) (2021-05-06T13:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。