論文の概要: Robust Decision-Making Via Free Energy Minimization
- arxiv url: http://arxiv.org/abs/2503.13223v1
- Date: Mon, 17 Mar 2025 14:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:28:22.713166
- Title: Robust Decision-Making Via Free Energy Minimization
- Title(参考訳): 自由エネルギー最小化によるロバスト意思決定
- Authors: Allahkaram Shafiei, Hozefa Jesawada, Karl Friston, Giovanni Russo,
- Abstract要約: DR-FREE(DR-FREE)は、自由エネルギー最小化によるエージェント決定機構に堅牢性を導入する自由エネルギーモデルである。
障害物で満たされたあいまいな環境を走行する実際のローバーを含む実験ベッド上でDR-FREEを評価する。
このマイルストーンは、マルチエージェント環境での展開と、おそらくより深いレベルで、自然エージェントが、ほとんど、あるいは全く訓練されていない状態でどのように生き残るかについて、生物学的にもっともらしい説明を求めることの両方に刺激を与えるかもしれない。
- 参考スコア(独自算出の注目度): 0.5624791703748108
- License:
- Abstract: Despite their groundbreaking performance, state-of-the-art autonomous agents can misbehave when training and environmental conditions become inconsistent, with minor mismatches leading to undesirable behaviors or even catastrophic failures. Robustness towards these training/environment ambiguities is a core requirement for intelligent agents and its fulfillment is a long-standing challenge when deploying agents in the real world. Here, departing from mainstream views seeking robustness through training, we introduce DR-FREE, a free energy model that installs this core property by design. It directly wires robustness into the agent decision-making mechanisms via free energy minimization. By combining a robust extension of the free energy principle with a novel resolution engine, DR-FREE returns a policy that is optimal-yet-robust against ambiguity. Moreover, for the first time, it reveals the mechanistic role of ambiguity on optimal decisions and requisite Bayesian belief updating. We evaluate DR-FREE on an experimental testbed involving real rovers navigating an ambiguous environment filled with obstacles. Across all the experiments, DR-FREE enables robots to successfully navigate towards their goal even when, in contrast, standard free energy minimizing agents that do not use DR-FREE fail. In short, DR-FREE can tackle scenarios that elude previous methods: this milestone may inspire both deployment in multi-agent settings and, at a perhaps deeper level, the quest for a biologically plausible explanation of how natural agents - with little or no training - survive in capricious environments.
- Abstract(参考訳): しかし、最先端の自律エージェントは、トレーニングや環境条件が不整合になると誤動作し、小さなミスマッチが望ましくない行動や破滅的な失敗に繋がる。
これらのトレーニング/環境の曖昧さに対するロバストさは、インテリジェントエージェントのコア要件であり、エージェントを現実世界にデプロイする上で、その実現は長年にわたる課題である。
ここでは、トレーニングを通じて堅牢性を求める主流の視点から離れ、このコア特性を設計によりインストールする自由エネルギーモデルDR-FREEを導入する。
自由エネルギーの最小化により、エージェント決定機構に直接ロバスト性を持たせる。
自由エネルギー原理のロバストな拡張と新しい分解エンジンを組み合わせることで、DR-FREEは曖昧さに対して最適であるポリシーを返す。
さらに、最適決定に対するあいまいさの機械的役割を初めて明らかにし、ベイズ的信念の更新を要求できる。
障害物で満たされたあいまいな環境を走行する実際のローバーを含む実験ベッド上でDR-FREEを評価する。
すべての実験において、DR-FREEは、DR-FREEを使用しない標準的な自由エネルギー最小化エージェントが失敗しても、ロボットが目標に向かってうまく進むことができる。
DR-FREEは、従来の手法を損なうシナリオに取り組むことができる: このマイルストーンは、マルチエージェント設定でのデプロイメントの両方を刺激し、おそらくより深いレベルで、自然なエージェントが、ほとんど、あるいは全く訓練されていない状態でどのように生き残るかについて、生物学的にもっともらしい説明を求める。
関連論文リスト
- Evaluating Robustness of Reinforcement Learning Algorithms for Autonomous Shipping [2.9109581496560044]
本稿では,自律型海運シミュレータにおける内陸水路輸送(IWT)のために実装されたベンチマークディープ強化学習(RL)アルゴリズムのロバスト性について検討する。
モデルのないアプローチはシミュレーターで適切なポリシーを達成でき、訓練中に遭遇したことのないポート環境をナビゲートすることに成功した。
論文 参考訳(メタデータ) (2024-11-07T17:55:07Z) - Vision-Language Navigation with Energy-Based Policy [66.04379819772764]
視覚言語ナビゲーション(VLN)は、人間の指示に従って行動を実行するエージェントを必要とする。
共同状態-行動分布をモデル化するためのエネルギーベースナビゲーションポリシー(ENP)を提案する。
ENPはR2R、REVERIE、RxR、R2R-CEで有望なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-18T08:01:36Z) - AI-Driven approach for sustainable extraction of earth's subsurface renewable energy while minimizing seismic activity [44.99833362998488]
地球の地殻に流体を注入すると、地震を誘発または引き起こすことがある。
本研究では,人間による震度制御のための強化学習に基づく新しい手法を提案する。
本研究では,強化学習アルゴリズムが頑健な制御器と効率的に対話可能であることを示す。
論文 参考訳(メタデータ) (2024-08-07T10:06:04Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - Safer Autonomous Driving in a Stochastic, Partially-Observable
Environment by Hierarchical Contingency Planning [10.971411555103574]
知的エージェントは、環境状態に対する信念の変化を予想する準備をすべきである。
これは特に、安全が最重要となる現実の状況をナビゲートする自動運転車(AV)に当てはまる。
また,本手法により,部分的に観察可能な安全な環境下での堅牢で安全な行動が得られ,トレーニング中に見えない環境に対して良好に一般化できることが示唆された。
論文 参考訳(メタデータ) (2022-04-13T16:47:00Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Multi-Agent Meta-Reinforcement Learning for Self-Powered and Sustainable
Edge Computing Systems [87.4519172058185]
エッジコンピューティング機能を有するセルフパワー無線ネットワークの効率的なエネルギー分配機構について検討した。
定式化問題を解くために,新しいマルチエージェントメタ強化学習(MAMRL)フレームワークを提案する。
実験の結果、提案されたMAMRLモデルは、再生不可能なエネルギー使用量を最大11%削減し、エネルギーコストを22.4%削減できることが示された。
論文 参考訳(メタデータ) (2020-02-20T04:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。