論文の概要: Using machine learning to inform harvest control rule design in complex fishery settings
- arxiv url: http://arxiv.org/abs/2412.12400v1
- Date: Mon, 16 Dec 2024 23:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:47.334799
- Title: Using machine learning to inform harvest control rule design in complex fishery settings
- Title(参考訳): 複雑な漁業環境下での収穫制御ルール設計のための機械学習
- Authors: Felipe Montealegre-Mora, Carl Boettiger, Carl J. Walters, Christopher L. Cahill,
- Abstract要約: 本研究では, 一部観察, 年齢構造, 余剰魚群に対する収量制御則を設計する際の問題点を考察する。
カナダのアルバータ州にあるWalleyeの漁業では、非常に多様な採用のダイナミクスがマネージャや生態学者を困惑させています。
いくつかの相補的なパフォーマンス指標を使用して、ポリシーを最適化し、評価しました。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In fishery science, harvest management of size-structured stochastic populations is a long-standing and difficult problem. Rectilinear precautionary policies based on biomass and harvesting reference points have now become a standard approach to this problem. While these standard feedback policies are adapted from analytical or dynamic programming solutions assuming relatively simple ecological dynamics, they are often applied to more complicated ecological settings in the real world. In this paper we explore the problem of designing harvest control rules for partially observed, age-structured, spasmodic fish populations using tools from reinforcement learning (RL) and Bayesian optimization. Our focus is on the case of Walleye fisheries in Alberta, Canada, whose highly variable recruitment dynamics have perplexed managers and ecologists. We optimized and evaluated policies using several complementary performance metrics. The main questions we addressed were: 1. How do standard policies based on reference points perform relative to numerically optimized policies? 2. Can an observation of mean fish weight, in addition to stock biomass, aid policy decisions?
- Abstract(参考訳): 漁業科学では、サイズ構成の確率的集団の収穫管理は長期的かつ困難な問題である。
バイオマスと収穫基準点に基づくレクチリニア予防政策が、この問題に対する標準的アプローチとなっている。
これらの標準フィードバックポリシーは、比較的単純なエコロジー力学を仮定する解析的あるいは動的プログラミングのソリューションから適応されるが、実世界のより複雑なエコロジー設定に適用されることが多い。
本稿では, 強化学習(RL)とベイズ最適化(ベイズ最適化)のツールを用いて, 部分的に観察された, 年齢構成された, 疎水性魚群に対する収穫制御則を設計する際の問題点を考察する。
カナダのアルバータ州にあるWalleyeの漁業では、非常に多様な採用のダイナミクスがマネージャや生態学者を困惑させています。
いくつかの相補的なパフォーマンス指標を使用して、ポリシーを最適化し、評価しました。
私たちが取り組んだ主な質問は次のとおりです。
1. 基準点に基づく標準方針は、数値的に最適化された政策と比較してどのように機能するか。
2.備蓄バイオマス、援助政策決定に加え、平均魚体重の観察は可能か。
関連論文リスト
- A Behavior-Aware Approach for Deep Reinforcement Learning in Non-stationary Environments without Known Change Points [30.077746056549678]
本研究では,環境変化検出と行動適応を融合させる革新的なフレームワークである行動認識検出適応(BADA)を紹介する。
我々の手法の背後にある重要なインスピレーションは、ポリシーが環境の変化に異なるグローバルな振る舞いを示すことである。
一連の実験の結果は、現在のアルゴリズムと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-23T06:17:26Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Fill-and-Spill: Deep Reinforcement Learning Policy Gradient Methods for
Reservoir Operation Decision and Control [0.0]
次元の計算」とは、与えられた精度のレベルで任意の関数を推定するために必要なサンプルの数が指数関数的に増加することを意味する。
本研究は, DDPG(Deep Deterministic Policy Gradients), Twin Delayed DDPG(TD3), Soft Actor-Critic(SAC18, SAC)の2種類の新しいDRL連続反応法(PGM)について検討した最初の試みである。
論文 参考訳(メタデータ) (2024-03-07T03:55:56Z) - Decision Making in Non-Stationary Environments with Policy-Augmented
Search [9.000981144624507]
textitPolicy-Augmented Monte Carlo Tree Search (PA-MCTS)を紹介する。
行動価値の推定は、最新のポリシーと、その環境の最新のモデルを用いたオンライン検索を組み合わせる。
PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。
論文 参考訳(メタデータ) (2024-01-06T11:51:50Z) - Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - Experiential-Informed Data Reconstruction for Fishery Sustainability and Policies in the Azores [3.2873782624127834]
我々は2010年から2017年にかけてアゾレス諸島の漁獲データ収集プログラムのユニークなデータセットに焦点を当てた。
ドメイン知識と機械学習を利用して,魚の上陸毎にメティア関連情報を検索し,関連づける。
論文 参考訳(メタデータ) (2023-09-17T17:17:38Z) - Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is This a
Good Way to Generalize Numerical Results? [66.52698983694613]
本稿では,バッキンガムの$pi$定理を,物理系の制御ポリシを汎用的な知識形式にエンコードするツールとして活用する。
本研究では,(1) パラメータの削減,(2) 特定のシステムに対して数値的に生成された制御ポリシを,入力変数と出力変数を適切にスケーリングすることにより,次元的に類似したシステムのサブセットに正確に転送可能であることを示す。
より複雑な高次元問題に対するポリシーを一般化するために、このアプローチがいかに実用的であるかは、まだわからないが、初期の結果は、それがaであることを示している。
論文 参考訳(メタデータ) (2023-07-29T00:51:26Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Bayesian Inverse Reinforcement Learning for Collective Animal Movement [0.7161783472741748]
逆強化学習は、長期的な行動方針を管理する短期的な規則に関する推論を提供する。
我々は、計算効率のよい線形解法マルコフ決定プロセスを用いて、集団運動を規定する局所ルールを学習する。
論文 参考訳(メタデータ) (2020-09-08T21:33:52Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。