論文の概要: World Models Unlock Optimal Foraging Strategies in Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2512.12548v1
- Date: Sun, 14 Dec 2025 04:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.306934
- Title: World Models Unlock Optimal Foraging Strategies in Reinforcement Learning Agents
- Title(参考訳): 強化学習エージェントの最適捕食戦略を解き放つ世界モデル
- Authors: Yesid Fonseca, Manuel S. Ríos, Nicanor Quijano, Luis F. Giraldo,
- Abstract要約: 学習世界モデルを備えた人工装具は,MVT対応戦略に自然に収束することを示す。
標準のモデルフリーRLエージェントと比較すると、これらのモデルベースエージェントは、多くの生物学的要因と同様な決定パターンを示す。
- 参考スコア(独自算出の注目度): 0.9332987715848716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patch foraging involves the deliberate and planned process of determining the optimal time to depart from a resource-rich region and investigate potentially more beneficial alternatives. The Marginal Value Theorem (MVT) is frequently used to characterize this process, offering an optimality model for such foraging behaviors. Although this model has been widely used to make predictions in behavioral ecology, discovering the computational mechanisms that facilitate the emergence of optimal patch-foraging decisions in biological foragers remains under investigation. Here, we show that artificial foragers equipped with learned world models naturally converge to MVT-aligned strategies. Using a model-based reinforcement learning agent that acquires a parsimonious predictive representation of its environment, we demonstrate that anticipatory capabilities, rather than reward maximization alone, drive efficient patch-leaving behavior. Compared with standard model-free RL agents, these model-based agents exhibit decision patterns similar to many of their biological counterparts, suggesting that predictive world models can serve as a foundation for more explainable and biologically grounded decision-making in AI systems. Overall, our findings highlight the value of ecological optimality principles for advancing interpretable and adaptive AI.
- Abstract(参考訳): パッチ捕食は、資源豊富な地域から出発する最適な時間を決定し、潜在的に有利な代替手段を調査する意図的かつ計画的なプロセスを含む。
Marginal Value Theorem (MVT) はこのプロセスの特徴付けによく使われ、このような捕食行動に最適なモデルを提供する。
このモデルは行動生態学の予測に広く用いられてきたが、生物の捕食者における最適なパッチ前処理決定の出現を促進する計算機構の発見はまだ検討中である。
ここでは,学習世界モデルを備えた人工装具が,MVT対応戦略に自然に収束することを示す。
モデルに基づく強化学習エージェントを用いて、環境の類似した予測表現を取得することにより、予測能力は最大化のみを報ずるのではなく、効率よくパッチを省くことができることを示す。
標準のモデルフリーRLエージェントと比較すると、これらのモデルベースエージェントは、多くの生物学的エージェントと同様の意思決定パターンを示し、予測的世界モデルがAIシステムにおけるより説明可能な生物学的基盤決定の基礎となることを示唆している。
全体として、我々は、解釈可能で適応的なAIを進めるための生態学的最適原則の価値を強調した。
関連論文リスト
- Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Delphos: A reinforcement learning framework for assisting discrete choice model specification [0.0]
我々は、個別選択モデル仕様プロセスを支援するための深層強化学習フレームワークであるDelphosを紹介する。
この設定では、エージェントは、モデリングアクションのシーケンスを選択して、良好なパフォーマンスのモデル候補を特定することを学習する。
我々は,モデル空間と報酬関数のサイズを変化させ,シミュレーションと経験的データセットの両方でDelphosを評価した。
論文 参考訳(メタデータ) (2025-06-06T15:40:16Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Non-Markovian Reinforcement Learning using Fractional Dynamics [3.000697999889031]
強化学習(Reinforcement Learning, RL)は、環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。
本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。
このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。
論文 参考訳(メタデータ) (2021-07-29T07:35:13Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。