論文の概要: Non-Linear Model-Based Sequential Decision-Making in Agriculture
- arxiv url: http://arxiv.org/abs/2509.01924v2
- Date: Sat, 13 Sep 2025 02:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.399248
- Title: Non-Linear Model-Based Sequential Decision-Making in Agriculture
- Title(参考訳): 農業における非線形モデルに基づくシークエンシャル意思決定
- Authors: Sakshi Arya, Wentao Lin,
- Abstract要約: 連続的な意思決定は持続可能な農業管理と精密農業の中心である。
本研究では,探索-探索ループに直接ドメイン固有応答曲線を埋め込むモデルベースバンディットアルゴリズムのファミリーを提案する。
我々のアプローチは、持続可能な、包括的で透明な意思決定を、農業、環境管理、および同盟するアプリケーションでサポートします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential decision-making is central to sustainable agricultural management and precision agriculture, where resource inputs must be optimized under uncertainty and over time. However, such decisions must often be made with limited observations, whereas classical bandit and reinforcement learning approaches typically rely on either linear or black-box reward models that may misrepresent domain knowledge or require large amounts of data. We propose a family of \emph{nonlinear, model-based bandit algorithms} that embed domain-specific response curves directly into the exploration-exploitation loop. By coupling (i) principled uncertainty quantification with (ii) closed-form or rapidly computable profit optima, these algorithms achieve sublinear regret and near-optimal sample complexity while preserving interpretability. Theoretical analysis establishes regret and sample complexity bounds, and extensive simulations emulating real-world fertilizer-rate decisions show consistent improvements over both linear and nonparametric baselines (such as linear UCB and $k$-NN UCB) in the low-sample regime, under both well-specified and shape-compatible misspecified models. Because our approach leverages mechanistic insight rather than large data volumes, it is especially suited to resource-constrained settings, supporting sustainable, inclusive, and transparent sequential decision-making across agriculture, environmental management, and allied applications.
- Abstract(参考訳): 連続的な意思決定は持続可能な農業管理と精密農業の中心であり、そこでは資源の入力は不確実性と時間の経過とともに最適化されなければならない。
しかし、そのような決定はしばしば限られた観測で行う必要があるが、古典的な帯域制限と強化学習のアプローチは典型的には、ドメインの知識を誤って表現したり大量のデータを必要とするような、線形またはブラックボックスの報酬モデルに依存する。
本稿では,探索-探索ループに直接ドメイン固有応答曲線を埋め込む,モデルベースバンディットアルゴリズム「emph{nonlinear」のファミリーを提案する。
カップリング
一 原則的不確実性定量化
(II)クローズドフォームまたは高速計算可能な利益最適化,これらのアルゴリズムは,解釈可能性を維持しつつ,サブ線形後悔とほぼ最適サンプル複雑性を実現する。
理論解析は、後悔とサンプルの複雑さの境界を確立し、実世界の肥料の速度決定をエミュレートした広範なシミュレーションは、線形および非パラメトリックのベースライン(例えば、線形 UCB と $k$-NN UCB)を、よく特定されたモデルと整合性のあるモデルの両方の下で一貫した改善を示す。
当社のアプローチでは,大規模データ量ではなく機械的洞察を活用するため,特に資源制約の設定に適しており,持続可能な,包括的,透過的な意思決定をサポートし,農業,環境管理,アライアンスアプリケーションにまたがる。
関連論文リスト
- Digital Twin Calibration with Model-Based Reinforcement Learning [3.0435175689911595]
本稿では,デジタルツインの校正をモデルベース強化学習に取り入れた,アクタ・シミュレータと呼ばれる新しい方法論フレームワークを提案する。
提案手法はディジタルツインを共同で校正し,最適制御ポリシーを探索し,モデル誤差を考慮・低減する。
この二重成分アプローチは、最適方針に確実に収束し、バイオ医薬品製造領域に基づく広範な数値実験において、既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-01-04T06:15:28Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Improving Generalization via Uncertainty Driven Perturbations [107.45752065285821]
トレーニングデータポイントの不確実性による摂動について考察する。
損失駆動摂動とは異なり、不確実性誘導摂動は決定境界を越えてはならない。
線形モデルにおいて,UDPがロバスト性マージン決定を達成することが保証されていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。