論文の概要: Meta-control of social learning strategies
- arxiv url: http://arxiv.org/abs/2106.10015v1
- Date: Fri, 18 Jun 2021 09:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 13:58:51.428855
- Title: Meta-control of social learning strategies
- Title(参考訳): 社会学習戦略のメタコントロール
- Authors: Anil Yaman, Nicolas Bredeche, Onur \c{C}aylak, Joel Z. Leibo, Sang Wan
Lee
- Abstract要約: 社会学習は、実際の経験のない他人の行動を模倣し、コスト効率の良い知識獲得手段を提供する。
ここでは、成功に基づく戦略は、不確実性の低い良質な環境を完全に活用するが、不確実な環境では失敗することを示す。
一方、コンフォニスト戦略は、この悪影響を効果的に軽減することができる。
- 参考スコア(独自算出の注目度): 9.419484512715242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social learning, copying other's behavior without actual experience, offers a
cost-effective means of knowledge acquisition. However, it raises the
fundamental question of which individuals have reliable information: successful
individuals versus the majority. The former and the latter are known
respectively as success-based and conformist social learning strategies. We
show here that while the success-based strategy fully exploits the benign
environment of low uncertainly, it fails in uncertain environments. On the
other hand, the conformist strategy can effectively mitigate this adverse
effect. Based on these findings, we hypothesized that meta-control of
individual and social learning strategies provides effective and
sample-efficient learning in volatile and uncertain environments. Simulations
on a set of environments with various levels of volatility and uncertainty
confirmed our hypothesis. The results imply that meta-control of social
learning affords agents the leverage to resolve environmental uncertainty with
minimal exploration cost, by exploiting others' learning as an external
knowledge base.
- Abstract(参考訳): 社会学習は、実際の経験のない他人の行動を模倣し、コスト効率の良い知識獲得手段を提供する。
しかし、これはどの個人が信頼できる情報を持っているかという根本的な疑問を提起する。
前者と後者はそれぞれ成功に基づく社会学習戦略として知られている。
ここでは,成功に基づく戦略が不確実性の低い良質な環境を十分に活用する一方で,不確定な環境では失敗することを示す。
一方、共形戦略はこの悪影響を効果的に軽減することができる。
これらの結果に基づき, 個人および社会学習戦略のメタコントロールは, 揮発性および不確実性環境において効果的かつサンプル効率の良い学習をもたらすと仮定した。
様々なレベルのボラティリティと不確実性を持つ環境のシミュレーションは、我々の仮説を裏付けた。
その結果,他者の学習を外部の知識基盤として活用することにより,エージェントが環境不確実性を最小限の探索コストで解決できることが示唆された。
関連論文リスト
- Deviations from the Nash equilibrium and emergence of tacit collusion in a two-player optimal execution game with reinforcement learning [0.9208007322096533]
2つの自律的エージェントが市場の影響下で同じ資産を最適に清算することを学習するシナリオについて検討する。
その結果,エージェントが学んだ戦略は,対応する市場影響ゲームのナッシュ均衡から大きく逸脱していることがわかった。
市場のボラティリティの異なるレベルがエージェントのパフォーマンスと彼らが発見する均衡にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-08-21T16:54:53Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。
評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文 参考訳(メタデータ) (2023-03-21T06:45:14Z) - Bridging adaptive management and reinforcement learning for more robust
decisions [6.152873761869356]
我々は, 環境システム管理のための堅牢な戦略を, 極めて不確実な状況下で構築する上で, 強化学習がいかに役立つかを示す。
我々は,環境管理とコンピュータ科学が,経験に基づく意思決定の実践,約束,危険について互いに学び合うことを示唆している。
論文 参考訳(メタデータ) (2023-03-15T16:14:12Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Social learning spontaneously emerges by searching optimal heuristics
with deep reinforcement learning [0.0]
多次元ランドスケープにおける協調ゲームにおけるエージェントの社会的学習戦略を最適化するために、深層強化学習モデルを用いる。
エージェントは、コピー、頻繁で良好な隣人への焦点、自己比較、個人と社会学習のバランスの重要性など、社会的学習の様々な概念を自発的に学習する。
本研究では,時間的に変化する環境や実際のソーシャルネットワークなど,各種環境における強化学習エージェントの優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-26T15:10:27Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Emergent Social Learning via Multi-agent Reinforcement Learning [91.57176641192771]
社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
論文 参考訳(メタデータ) (2020-10-01T17:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。