論文の概要: CM-DQN: A Value-Based Deep Reinforcement Learning Model to Simulate Confirmation Bias
- arxiv url: http://arxiv.org/abs/2407.07454v2
- Date: Tue, 16 Jul 2024 04:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:24:18.212015
- Title: CM-DQN: A Value-Based Deep Reinforcement Learning Model to Simulate Confirmation Bias
- Title(参考訳): CM-DQN:確認バイアスをシミュレートする価値に基づく深層強化学習モデル
- Authors: Jiacheng Shen, Lihan Feng,
- Abstract要約: 本稿では,人間の意思決定過程をシミュレートするために,Deep Reinforcement Learning(CM-DQN)に新たなアルゴリズムを提案する。
我々は,Lunar Lander環境において,確認的,不確認的バイアス,非バイアスを用いて学習効果を観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In human decision-making tasks, individuals learn through trials and prediction errors. When individuals learn the task, some are more influenced by good outcomes, while others weigh bad outcomes more heavily. Such confirmation bias can lead to different learning effects. In this study, we propose a new algorithm in Deep Reinforcement Learning, CM-DQN, which applies the idea of different update strategies for positive or negative prediction errors, to simulate the human decision-making process when the task's states are continuous while the actions are discrete. We test in Lunar Lander environment with confirmatory, disconfirmatory bias and non-biased to observe the learning effects. Moreover, we apply the confirmation model in a multi-armed bandit problem (environment in discrete states and discrete actions), which utilizes the same idea as our proposed algorithm, as a contrast experiment to algorithmically simulate the impact of different confirmation bias in decision-making process. In both experiments, confirmatory bias indicates a better learning effect. Our code can be found here https://github.com/Patrickhshs/CM-DQN.
- Abstract(参考訳): 人間の意思決定タスクでは、個人は試行錯誤を通じて学習する。
個人がタスクを学ぶとき、良い結果の影響を受けやすいものもあれば、悪い結果の重み付けをするものもある。
このような確認バイアスは、異なる学習効果をもたらす可能性がある。
本研究では,タスクの状態が連続である場合,その動作が離散的である場合に,人間の意思決定過程をシミュレートするために,肯定的あるいは否定的な予測誤りに対する異なる更新戦略の考え方を適用した,Deep Reinforcement Learning(CM-DQN)の新たなアルゴリズムを提案する。
我々は,Lunar Lander環境において,確認的,不確認的バイアス,非バイアスを用いて学習効果を観察する。
さらに,提案アルゴリズムと同一の考え方を取り入れたマルチアームバンディット問題(離散状態と離散動作の環境)における検証モデルを,コントラスト実験として適用し,決定過程における異なる確認バイアスの影響をアルゴリズム的にシミュレートする。
どちらの実験でも、確認バイアスはより良い学習効果を示す。
私たちのコードは、https://github.com/Patrickhshs/CM-DQN.comで参照できます。
関連論文リスト
- Extrinsicaly Rewarded Soft Q Imitation Learning with Discriminator [0.0]
行動クローンのような教師付き学習手法はサンプリングデータを必要としないが、通常は分散シフトに悩まされる。
ソフトQ模倣学習(SQIL)はこの問題に対処し,行動クローンとソフトQ学習を一定の報酬と組み合わせることで効率よく学習できることを示した。
論文 参考訳(メタデータ) (2024-01-30T06:22:19Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - When Do Curricula Work in Federated Learning? [56.88941905240137]
カリキュラム学習は非IID性を大幅に軽減する。
クライアント間でデータ配布を多様化すればするほど、学習の恩恵を受けるようになる。
本稿では,クライアントの現実的格差を生かした新しいクライアント選択手法を提案する。
論文 参考訳(メタデータ) (2022-12-24T11:02:35Z) - Increasing Students' Engagement to Reminder Emails Through Multi-Armed
Bandits [60.4933541247257]
本稿では,学生が週毎のメールリマインダーとどのように関わり,時間管理の習慣を構築するかについて,実世界の適応実験を行った。
適応実験にマルチアーマド・バンド(MAB)アルゴリズムを用いると、より良い結果が得られる可能性が高まる。
我々は、これらの適応アルゴリズムの問題点を強調します。例えば、大きな違いがない場合の腕の活用などです。
論文 参考訳(メタデータ) (2022-08-10T00:30:52Z) - How trial-to-trial learning shapes mappings in the mental lexicon:
Modelling Lexical Decision with Linear Discriminative Learning [0.4450536872346657]
本研究では,未熟な語彙決定実験において,試行錯誤学習が検出できるかどうかを検討する。
我々は、分布意味論から表現する意味を持つ精神的語彙のモデルである差別的語彙モデル(DLM)を用いた。
我々の研究結果は、語彙的知識が継続的な変化の対象となる可能性を支持する。
論文 参考訳(メタデータ) (2022-07-01T13:49:30Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Are Bias Mitigation Techniques for Deep Learning Effective? [24.84797949716142]
改良された評価プロトコル、有能なメトリクス、新しいデータセットを導入する。
我々は、同じネットワークアーキテクチャを用いて、7つの最先端アルゴリズムを評価する。
アルゴリズムは隠れバイアスを悪用し、複数の形式のバイアスにスケールできず、チューニングセットの選択に非常に敏感であることがわかった。
論文 参考訳(メタデータ) (2021-04-01T00:14:45Z) - A framework for predicting, interpreting, and improving Learning
Outcomes [0.0]
本研究では,学生の観察的,行動的,受験的特徴に基づいて,テストスコアを予測するEmbibe Score Quotient Model(ESQ)を開発した。
ESQは、学生の将来的な採点可能性の予測や、個別の学習ナッジの提供に使用することができる。
論文 参考訳(メタデータ) (2020-10-06T11:22:27Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z) - A New Framework for Query Efficient Active Imitation Learning [5.167794607251493]
彼の好みと目的に基づいて、報酬と安全でない状態を知っている人間の専門家がいますが、人間の専門家に問い合わせるのは高価です。
本稿では,ユーザの報酬関数のモデルと効率的なクエリを積極的かつインタラクティブに学習する,模倣学習(IL)アルゴリズムを提案する。
提案手法は、状態ベース2次元ナビゲーションタスク、ロボット制御タスク、画像ベースビデオゲームに基づいて、シミュレーションされた人間を用いて評価する。
論文 参考訳(メタデータ) (2019-12-30T18:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。