論文の概要: Explainable deep reinforcement learning reveals energy-efficient control strategies for turbulent drag reduction
- arxiv url: http://arxiv.org/abs/2606.00949v1
- Date: Sun, 31 May 2026 02:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:28.995394
- Title: Explainable deep reinforcement learning reveals energy-efficient control strategies for turbulent drag reduction
- Title(参考訳): 説明可能な深部強化学習は、乱流抵抗低減のためのエネルギー効率の高い制御戦略を明らかにする
- Authors: Federica Tonti, Ricardo Vinuesa,
- Abstract要約: 本稿では,マルチエージェント深部強化学習(MARL)とeXplainable Deep Learning(XDL)を組み合わせることで,壁境界乱流の抵抗を低減する手法を提案する。
- 参考スコア(独自算出の注目度): 3.306815791933257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method combining Multi-Agent Deep Reinforcement Learning (MARL) and eXplainable Deep Learning (XDL) to reduce drag in wall-bounded turbulent flows. Taking as a baseline the results of training agents directly targeting wall-shear stress and opposition control, three SHAP-guided approaches are compared. In the first, the reward is computed from SHAP attributions of a U-net predicting the future velocity field; in the second, from SHAP attributions of a U-net predicting the skin-friction coefficient; in the third, from a combination of SHAP attributions of two U-nets predicting the skin-friction coefficient and the wall pressure fluctuations, respectively. The combined SHAP strategy based on skin-friction coefficient and wall-pressure fluctuations achieves the best overall performance, achieving a DR of 34.44% and a NES of 34.01% with only 0.43% normalized input power. Relative to opposition control, drag reduction and net energy saving increase by 49.41% and 48.52%, respectively. Compared with the direct wall-shear-stress baseline, the proposed strategy simultaneously improves performance while reducing the normalized actuation cost from 5.90% to 0.43%. Analysis of the results reveals that the energetically efficient policy is consistent with pressure-gated actuation, activating predominantly at near-zero wall pressure, and operates on a temporal timescale comparable to the lifetime of the near-wall turbulent structures.
- Abstract(参考訳): 本稿では,マルチエージェント深部強化学習(MARL)とeXplainable Deep Learning(XDL)を組み合わせることで,壁境界乱流の抵抗を低減する手法を提案する。
壁面ストレスと反対制御を直接標的としたトレーニングエージェントの結果をベースラインとして、3つのSHAP誘導アプローチを比較した。
第1に、将来の速度場を予測するU-netのSHAP属性、第2に、皮膚摩擦係数を予測するU-netのSHAP属性、第3に、皮膚摩擦係数を予測する2つのU-netのSHAP属性、および壁圧変動を予測する2つのU-netのSHAP属性から報酬を算出する。
スキンフリクション係数と壁圧変動に基づくSHAP戦略の組み合わせは、DRが34.44%、NESが34.01%、正規化された入力電力がわずか0.43%という最高のパフォーマンスを達成する。
反対制御、ドラッグ削減、ネット省エネルギーはそれぞれ49.41%、48.52%増加した。
提案手法は, 直接壁面スハーレスベースラインと比較して, 通常のアクティベーションコストを5.90%から0.43%に削減しつつ, 同時に性能を向上する。
解析の結果, エネルギー効率のよい政策は, ほぼゼロに近い壁圧力で活性化し, ほぼ壁面乱流の寿命に匹敵する時間スケールで動作することがわかった。
関連論文リスト
- Enhancing behavioral nudges with large language model-based iterative personalization: A field experiment on electricity and hot-water conservation [13.2456037065026]
大規模言語モデル(LLM)は、パーソナライズされたガイダンスを生成し、介入ラウンドを反復的に更新することで、認知作業の一部を削減できる可能性がある。
中国233人の大学生を対象に,反復的パーソナライズのためのLSMエージェントを開発し,ランダム化実験を行った。
論文 参考訳(メタデータ) (2026-04-04T22:28:50Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - DISPO: Enhancing Training Efficiency and Stability in Reinforcement Learning for Large Language Model Mathematical Reasoning [31.369103012768964]
DISPOは単純だが効果的なREINFORCEスタイルのアルゴリズムで、正しい反応と間違った反応のために重要なサンプリング重量の上昇と下降を分離する。
DISPO は AIME'24 (55.42% CISPO と 50.21% DAPO) で 61.04% を達成することを示す。
論文 参考訳(メタデータ) (2026-02-01T02:45:04Z) - Harnessing Bounded-Support Evolution Strategies for Policy Refinement [3.3656696418661975]
三角分布ES対は、安定で、並列化可能で、勾配のない更新を提供する中心ランク有限差分推定器を持つ三角形雑音に有界である。
2段階のパイプライン - PPO事前トレーニングとTD-ESの改良 – では、早期サンプル効率を維持しながら、堅牢な後期ステージゲインを実現している。
ロボット操作タスクのスイート全体で、TD-ESはPPOと比較して26.5%の成功率を高め、信頼性の高い改良のための単純で計算軽量なパスを提供する。
論文 参考訳(メタデータ) (2025-11-13T03:35:52Z) - Shocks Under Control: Taming Transonic Compressible Flow over an RAE2822 Airfoil with Deep Reinforcement Learning [3.2481378205832794]
Re = 50,000における2次元RAE2822翼の流動制御について, 深部強化学習(DRL)を用いて検討した。
流れ場は、複雑な衝撃境界層相互作用、衝撃発振、後縁からのクッタ波の発生など、非常に不安定なダイナミクスを示す。
DRLをベースとした制御は、ドラッグの25.62%の減少と、大幅に196.30%の上昇を達成する。
論文 参考訳(メタデータ) (2025-11-10T19:15:40Z) - Physics-informed Neural-operator Predictive Control for Drag Reduction in Turbulent Flows [109.99020160824553]
乱流のモデリングと制御のための効率的な深部強化学習フレームワークを提案する。
予測制御(PC)のためのモデルベースRLであり、乱流制御のためのポリシとオブザーバモデルの両方を共同で学習する。
その結果, PINO-PCは, バルク速度レイノルズ数15,000で39.0%の抗力低下を達成し, 従来の流体制御法を32%以上上回った。
論文 参考訳(メタデータ) (2025-10-03T00:18:26Z) - SIRI: Scaling Iterative Reinforcement Learning with Interleaved Compression [48.04180854972225]
大規模共振モデル(LRM)のための簡易かつ効果的なRLアプローチであるInterleaved Compressionを用いたSIRI(Scaling Iterative Reinforcement Learning)を導入する。
このトレードオフは、推理予算の圧縮と拡大を反復的に交互に交互に行う訓練体制によって克服できることを示す。
また, 各圧縮膨張サイクルの後に, 出力長が減少しても, モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-09-29T17:59:08Z) - Control of Rayleigh-Bénard Convection: Effectiveness of Reinforcement Learning in the Turbulent Regime [6.619254876970774]
乱流下での対流熱伝達低減のための強化学習(RL)の有効性について検討した。
単エージェントプロキシポリシー最適化(PPO)によって訓練されたRLエージェントは、線形比例微分(PD)コントローラと比較される。
RL剤は、ヌッセルト数によって測定された対流を、適度な乱流系では最大33%減らし、高乱流環境では10%減らした。
論文 参考訳(メタデータ) (2025-04-16T11:51:59Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。