論文の概要: Progressive Generalization Augmentation with Deeply Coupled RND-PPO and Domain-Prioritized Noise Injection for Robust Crop Management Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.17428v1
- Date: Sun, 17 May 2026 12:48:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.012854
- Title: Progressive Generalization Augmentation with Deeply Coupled RND-PPO and Domain-Prioritized Noise Injection for Robust Crop Management Reinforcement Learning
- Title(参考訳): 深く結合したRND-PPOとドメイン分割型雑音注入によるロバスト作物管理強化学習の進歩的一般化
- Authors: Wu Yang,
- Abstract要約: 本稿では,農業用RLシステムの実用的展開を妨げる3つの限界に対処する。
本稿では,3段階のカリキュラムを実装したPGA(Progressive Generalization Augmentation),デュアルチャネルGAE正規化を伴うRND-PPOアーキテクチャ,プログレッシブデケイド内在係数,セマンティックディフレティゼーション,階層的アクティベーションを伴うドメイン優先ノイズインジェクションの3つを紹介する。
- 参考スコア(独自算出の注目度): 3.0094301461257476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our preliminary experiments on gym-DSSAT maize irrigation tasks revealed that +/-2 degrees C temperature noise causes an 11.9% reduction in economic returns for PPO policies trained under clean conditions - a systematic robustness deficit that existing research has not adequately addressed. This paper tackles three interconnected limitations impeding practical deployment of agricultural RL systems: the trade-off between early-stage learning efficiency and late-stage generalization capability; the naive additive combination of intrinsic and extrinsic rewards in exploration-augmented PPO; and uniform measurement noise injection strategies that disregard empirically validated differential sensitivity across agricultural state variables. We introduce three systematic innovations: Progressive Generalization Augmentation (PGA) implementing a three-phase curriculum (clean training 0-800 episodes, progressive 800-1200, full augmentation 1200-2000); a deeply coupled RND-PPO architecture with dual-channel GAE normalization, progress-decayed intrinsic coefficients, and semantic discretization; and domain-prioritized noise injection with hierarchical activation. Our experimental evaluation demonstrates: 8.43% yield improvement and 16.42% nitrogen use efficiency improvement over SOTA BERT-DQN in Florida; 5.61% yield improvement in Zaragoza (though 3.67% lower economic score due to challenging Mediterranean climate); and 94.4% vs 80.0% performance retention under combined perturbations. All experiments used 5 random seeds on NVIDIA A100 GPUs with 4.2+/-0.3 hours per run (2000 episodes, 2048-step buffer, 64 mini-batch size).
- Abstract(参考訳): 体育DSSATの空調作業に関する予備実験により, クリーン条件下で訓練されたPPO政策において, +/-2°Cの温度雑音が11.9%の経済リターンを減少させることが明らかとなった。
本稿では,農業用RLシステムの実践的展開を妨げる3つの相互接続的制約に対処する: 早期学習効率と後期一般化能力のトレードオフ, 探索増強型PPOにおける本質的報酬と外生的報酬の付加的な組み合わせ, 農業用状態変数間の差分感度を経験的に検証しない均一な計測ノイズ注入戦略。
3段階のカリキュラム(クリーントレーニング0-800エピソード,プログレッシブ800-1200エピソード,フル拡張1200-2000エピソード),デュアルチャネルGAE正規化を伴うRND-PPOアーキテクチャ,プログレッシブデケイド内在係数,セマンティックディフレティゼーション,階層的アクティベーションを伴うドメイン優先ノイズ注入。
実験の結果,フロリダ州のSOTA BERT-DQNの収率8.43%,窒素利用効率16.42%,サラゴサの収率5.61%(地中海性気候への挑戦による経済スコア3.67%),複合摂動下でのパフォーマンス維持率94.4%対80.0%であった。
全ての実験ではNVIDIA A100 GPU上で5つのランダムシードを使用し、1ラン当たり4.2+/-0.3時間(2000回、2048ステップバッファ、64ミニバッチサイズ)。
関連論文リスト
- MPCS: Neuroplastic Continual Learning via Multi-Component Plasticity and Topology-Aware EWC [0.0]
我々は,11つの相補的機構を統合した神経可塑性アーキテクチャMPCSを紹介する。
我々は、回帰、分類、論理、混合ドメインにわたる31のタスクにまたがるベンチマークであるMEP-BENCH上でMPCSを評価する。
論文 参考訳(メタデータ) (2026-05-04T12:04:09Z) - GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting [3.088218970976369]
本稿では,新しいアモーダルセグメンテーションモデル GDA-YOLO11 を用いた収穫フレームワークを提案する。
収量率は92.59%、85.18%、48.14%、22.22%に達する。
論文 参考訳(メタデータ) (2026-02-27T11:56:33Z) - NDRL: Cotton Irrigation and Nitrogen Application with Nested Dual-Agent Reinforcement Learning [30.1462125315719]
本研究では,Nested Dual-Agent Reinforcement Learning (NDRL)法を提案する。
児童エージェントの報酬機能は、定量水ストレス因子(WSF)と窒素ストレス因子(NSF)を組み込む
実験の結果、2023年と2024年に比較すると、シミュレーションされた収量は4.7%増加した。
論文 参考訳(メタデータ) (2025-12-18T11:07:35Z) - Step-E: A Differentiable Data Cleaning Framework for Robust Learning with Noisy Labels [0.0]
サンプル選択とモデル学習をひとつの最適化プロセスに統合するフレームワークであるStep-Eを提案する。
Step-Eは、サンプルを損失別にランク付けし、更新から除外された高損失の例を徐々に増やします。
CIFAR-100Nでは、Step-EはResNet-18モデルのテスト精度を43.3%から50.4%に改善した。
論文 参考訳(メタデータ) (2025-11-21T08:31:43Z) - FSC-Net: Fast-Slow Consolidation Networks for Continual Learning [0.0]
本稿では,段階的知識統合から素早いタスク学習を分離するデュアルネットワークアーキテクチャを提案する。
提案手法では,新しいタスクへの即時適応のための高速ネットワーク(NN1)と,蒸留と再生を通じて知識を集約する低速ネットワーク(NN2)を用いる。
以上の結果から, アーキテクチャ上の複雑さではなく, 二重スケールの凝縮機構が破滅的忘れを緩和する中心となるという実証的証拠が得られた。
論文 参考訳(メタデータ) (2025-11-12T15:42:33Z) - Agentic Entropy-Balanced Policy Optimization [114.90524574220764]
エージェント強化学習(Agentic RL)は,Webエージェントの多ターン,長期ツール利用能力の活性化に大きく貢献している。
RLアルゴリズムはエントロピーの誘導の下で、高不確実性ツールコールステップを自律的に探索するが、エントロピー信号への過度な依存は、さらなる制約を課す可能性がある。
本稿では,エージェント・エントロピー・バランサード・ポリシー最適化(AEPO, Agentic Entropy-Balanced Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-16T10:40:52Z) - EEPO: Exploration-Enhanced Policy Optimization via Sample-Then-Forget [48.98166525828929]
Exploration-Enhanced Policy Optimization (EEPO)は、適応的アンラーニングを伴う2段階のロールアウトによる探索を促進するフレームワークである。
EEPOは5つの推論ベンチマークでGRPOを上回っ、Qwen2.5-3Bで24.3%、Llama3.2-3B-Instructで33.0%、Qwen3-8B-Baseで10.4%という平均的な相対的な上昇を達成した。
論文 参考訳(メタデータ) (2025-10-07T12:02:03Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。