論文の概要: Information-Seeking Decision Strategies Mitigate Risk in Dynamic, Uncertain Environments
- arxiv url: http://arxiv.org/abs/2503.19107v1
- Date: Mon, 24 Mar 2025 19:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:53:45.675233
- Title: Information-Seeking Decision Strategies Mitigate Risk in Dynamic, Uncertain Environments
- Title(参考訳): 動的で不確実な環境におけるリスク軽減のための情報探索型意思決定手法
- Authors: Nicholas W. Barendregt, Joshua I. Gold, Krešimir Josić, Zachary P. Kilpatrick,
- Abstract要約: 採餌作業における規範的報酬・情報探索戦略の性能を比較した。
彼らの行動には微妙な相違があり、結果として意味のあるパフォーマンスの違いが生じます。
本研究は,報酬損失を最小限に抑えつつリスクを軽減できる情報探索行動の適応的価値を支持する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: To survive in dynamic and uncertain environments, individuals must develop effective decision strategies that balance information gathering and decision commitment. Models of such strategies often prioritize either optimizing tangible payoffs, like reward rate, or gathering information to support a diversity of (possibly unknown) objectives. However, our understanding of the relative merits of these two approaches remains incomplete, in part because direct comparisons have been limited to idealized, static environments that lack the dynamic complexity of the real world. Here we compared the performance of normative reward- and information-seeking strategies in a dynamic foraging task. Both strategies show similar transitions between exploratory and exploitative behaviors as environmental uncertainty changes. However, we find subtle disparities in the actions they take, resulting in meaningful performance differences: whereas reward-seeking strategies generate slightly more reward on average, information-seeking strategies provide more consistent and predictable outcomes. Our findings support the adaptive value of information-seeking behaviors that can mitigate risk with minimal reward loss.
- Abstract(参考訳): 動的で不確実な環境で生き残るためには、個人は情報収集と意思決定のコミットメントのバランスをとる効果的な意思決定戦略を開発する必要がある。
このような戦略のモデルは、報酬率などの具体的な支払いを最適化するか、あるいは(おそらく未知の)目的の多様性をサポートするために情報を収集するかを優先することが多い。
しかしながら、これらの2つのアプローチの相対的なメリットに対する我々の理解は、直比較が現実世界の動的な複雑さを欠いた理想化された静的な環境に限られているため、いまだに不完全である。
ここでは,動的採餌作業における規範的報酬・情報探索戦略の性能を比較した。
どちらの戦略も、環境の不確実性の変化として、探索的行動と搾取的行動の類似した遷移を示している。
しかし、それらが取る行動の微妙な相違は、意味のあるパフォーマンスの違いをもたらす:報酬を求める戦略は平均よりもわずかに報酬を生み出すが、情報を求める戦略はより一貫性があり予測可能な結果をもたらす。
本研究は,報酬損失を最小限に抑えつつリスクを軽減できる情報探索行動の適応的価値を支持する。
関連論文リスト
- Steganography and Probabilistic Risk Analysis: A Game Theoretical Framework for Quantifying Adversary Advantage and Impact [1.2937020918620652]
本研究では, 防衛企業と敵との戦略的相互作用を分析するための, 新たなステガノグラフィーゲーム理論モデルを提案する。
非協力的なゲームとしてシナリオをフレーミングすることにより、双方にとって最適な戦略を体系的に評価する。
論文 参考訳(メタデータ) (2024-12-23T20:02:52Z) - Improving Active Learning with a Bayesian Representation of Epistemic Uncertainty [0.0]
アクティブラーニングの一般的な戦略は、特にてんかんの不確実性の減少を目標にすることである。
この組み合わせが、望ましい特性を持つ新しいアクティブな学習戦略にどのように結びつくかを示す。
非自明な設定でこれらの戦略の効率性を示すために、確率的ガウス過程(GP)の概念を導入する。
論文 参考訳(メタデータ) (2024-12-11T09:19:20Z) - Ensembling Portfolio Strategies for Long-Term Investments: A Distribution-Free Preference Framework for Decision-Making and Algorithms [0.0]
本稿では、長期的富という観点から個別の戦略を上回るために、逐次的ポートフォリオのための複数の戦略をまとめることの問題点について考察する。
我々は,市場条件にかかわらず,戦略を組み合わせるための新たな意思決定枠組みを導入する。
シャープ比の小さなトレードオフがあるにもかかわらず、提案した戦略を支持する結果を示す。
論文 参考訳(メタデータ) (2024-06-05T23:08:57Z) - Non-linear Welfare-Aware Strategic Learning [10.448052192725168]
本稿では,戦略的個人行動の存在下でのアルゴリズム的意思決定について考察する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化する。
制限条件下でのみ3つの福祉が同時に最適な状態が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T01:50:03Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Meta-control of social learning strategies [9.419484512715242]
社会学習は、実際の経験のない他人の行動を模倣し、コスト効率の良い知識獲得手段を提供する。
ここでは、成功に基づく戦略は、不確実性の低い良質な環境を完全に活用するが、不確実な環境では失敗することを示す。
一方、コンフォニスト戦略は、この悪影響を効果的に軽減することができる。
論文 参考訳(メタデータ) (2021-06-18T09:17:21Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。