論文の概要: Evolving choice hysteresis in reinforcement learning: comparing the adaptive value of positivity bias and gradual perseveration
- arxiv url: http://arxiv.org/abs/2410.19434v1
- Date: Fri, 25 Oct 2024 09:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:06.670492
- Title: Evolving choice hysteresis in reinforcement learning: comparing the adaptive value of positivity bias and gradual perseveration
- Title(参考訳): 強化学習における選択ヒステリシスの進化 : 肯定バイアスの適応値と段階的持続率の比較
- Authors: Isabelle Hoxha, Leo Sperber, Stefano Palminteri,
- Abstract要約: 多くの状況において, 肯定バイアスは進化的安定であり, 漸進的摂動の出現は体系的でなく, 頑健であることを示す。
以上の結果から, 環境特異的な方法で, バイアスが適応し, 進化によって選択できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The tendency of repeating past choices more often than expected from the history of outcomes has been repeatedly empirically observed in reinforcement learning experiments. It can be explained by at least two computational processes: asymmetric update and (gradual) choice perseveration. A recent meta-analysis showed that both mechanisms are detectable in human reinforcement learning. However, while their descriptive value seems to be well established, they have not been compared regarding their possible adaptive value. In this study, we address this gap by simulating reinforcement learning agents in a variety of environments with a new variant of an evolutionary algorithm. Our results show that positivity bias (in the form of asymmetric update) is evolutionary stable in many situations, while the emergence of gradual perseveration is less systematic and robust. Overall, our results illustrate that biases can be adaptive and selected by evolution, in an environment-specific manner.
- Abstract(参考訳): 過去の選択を予想以上の頻度で繰り返す傾向は、強化学習実験で経験的に繰り返し観察されている。
これは少なくとも2つの計算プロセスによって説明できる:非対称な更新と(徐々に)選択の持続である。
最近のメタ分析では、両方のメカニズムが人間の強化学習において検出可能であることが示されている。
しかしながら、それらの記述的価値は十分に確立されているように思われるが、それらの適応的価値については比較されていない。
本研究では,様々な環境における強化学習エージェントを,進化的アルゴリズムの新たな変種を用いてシミュレーションすることにより,このギャップに対処する。
以上の結果から, 漸進的持続の出現は体系的・堅牢性に欠けるが, 正のバイアス(非対称的更新の形で)は多くの状況において進化的安定であることがわかった。
その結果, 環境特異的な方法で, バイアスが適応し, 進化によって選択できることが示唆された。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Towards Fair Disentangled Online Learning for Changing Environments [28.207499975916324]
オンライン学習における環境変化は、学習パラメータが環境に固有の部分的変化に起因していると論じる。
本稿では,各時点に収集したデータを2つの表現で切り離すことができるという仮定の下で,新しいアルゴリズムを提案する。
新たな後悔は、動的および静的な後悔の指標の混合形式と、公平性に配慮した長期的制約を伴って提案される。
論文 参考訳(メタデータ) (2023-05-31T19:04:16Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Meta-Auxiliary Learning for Adaptive Human Pose Prediction [26.877194503491072]
高忠実な未来の人間のポーズを予測することは、インテリジェントロボットが人間と対話する上で決定的だ。
ディープラーニングアプローチは、通常、外部データセット上で一般的なトレーニング済みモデルをトレーニングし、すべてのテストサンプルに直接適用する。
本稿では,2つの自己監督型補助タスクを活用するテスト時間適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T11:17:09Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - When to be critical? Performance and evolvability in different regimes
of neural Ising agents [18.536813548129878]
臨界状態に近い状態での操作は、自然、人工的およびそれらの進化システムにとって有益である、という仮説は長年にわたって仮説化されてきた。
我々はこの仮説を、ニューラルネットワークによって制御される進化的捕食エージェントのシステムでテストする。
驚くべきことに、ソリューションを発見するすべての人口は、亜臨界状態へと進化する。
論文 参考訳(メタデータ) (2023-03-28T17:57:57Z) - Blessings and Curses of Covariate Shifts: Adversarial Learning Dynamics, Directional Convergence, and Equilibria [6.738946307589742]
共変量分布シフトと対向摂動は,従来の統計学習フレームワークに課題を呈する。
本稿では,無限次元環境下での回帰と分類の両面から,外挿領域を正確に特徴づける。
論文 参考訳(メタデータ) (2022-12-05T18:00:31Z) - Characterizing the robustness of Bayesian adaptive experimental designs
to active learning bias [3.1351527202068445]
本研究では,学習バイアスがベイズ適応型実験設計に悪影響を及ぼすことを示す。
我々は,誤識別に関する情報理論的な尺度を開発し,誤識別の悪さが学習バイアスの重大化を示唆していることを示す。
論文 参考訳(メタデータ) (2022-05-27T01:23:11Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - The Introspective Agent: Interdependence of Strategy, Physiology, and
Sensing for Embodied Agents [51.94554095091305]
本論では, 環境の文脈において, 自己能力を考慮した内省的エージェントについて論じる。
自然と同じように、私たちは戦略を1つのツールとして再編成して、環境において成功させたいと考えています。
論文 参考訳(メタデータ) (2022-01-02T20:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。