論文の概要: CM-DQN: A Value-Based Deep Reinforcement Learning Model to Simulate Confirmation Bias
- arxiv url: http://arxiv.org/abs/2407.07454v1
- Date: Wed, 10 Jul 2024 08:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:31:45.646442
- Title: CM-DQN: A Value-Based Deep Reinforcement Learning Model to Simulate Confirmation Bias
- Title(参考訳): CM-DQN:確認バイアスをシミュレートする価値に基づく深層強化学習モデル
- Authors: Jiacheng Shen, Lihan Feng,
- Abstract要約: 本稿では,人間の意思決定過程をシミュレートするために,Deep Reinforcement Learning(CM-DQN)に新たなアルゴリズムを提案する。
我々は,Lunar Lander環境において,確認的,不確認的バイアス,非バイアスを用いて学習効果を観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In human decision-making tasks, individuals learn through trials and prediction errors. When individuals learn the task, some are more influenced by good outcomes, while others weigh bad outcomes more heavily. Such confirmation bias can lead to different learning effects. In this study, we propose a new algorithm in Deep Reinforcement Learning, CM-DQN, which applies the idea of different update strategies for positive or negative prediction errors, to simulate the human decision-making process when the task's states are continuous while the actions are discrete. We test in Lunar Lander environment with confirmatory, disconfirmatory bias and non-biased to observe the learning effects. Moreover, we apply the confirmation model in a multi-armed bandit problem (environment in discrete states and discrete actions), which utilizes the same idea as our proposed algorithm, as a contrast experiment to algorithmically simulate the impact of different confirmation bias in decision-making process. In both experiments, confirmatory bias indicates a better learning effect. Our code can be found here https://github.com/Patrickhshs/CM-DQN.
- Abstract(参考訳): 人間の意思決定タスクでは、個人は試行錯誤を通じて学習する。
個人がタスクを学ぶとき、良い結果の影響を受けやすいものもあれば、悪い結果の重み付けをするものもある。
このような確認バイアスは、異なる学習効果をもたらす可能性がある。
本研究では,タスクの状態が連続である場合,その動作が離散的である場合に,人間の意思決定過程をシミュレートするために,肯定的あるいは否定的な予測誤りに対する異なる更新戦略の考え方を適用した,Deep Reinforcement Learning(CM-DQN)の新たなアルゴリズムを提案する。
我々は,Lunar Lander環境において,確認的,不確認的バイアス,非バイアスを用いて学習効果を観察する。
さらに,提案アルゴリズムと同一の考え方を取り入れたマルチアームバンディット問題(離散状態と離散動作の環境)における検証モデルを,コントラスト実験として適用し,決定過程における異なる確認バイアスの影響をアルゴリズム的にシミュレートする。
どちらの実験でも、確認バイアスはより良い学習効果を示す。
私たちのコードは、https://github.com/Patrickhshs/CM-DQN.comで参照できます。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - How trial-to-trial learning shapes mappings in the mental lexicon:
Modelling Lexical Decision with Linear Discriminative Learning [0.4450536872346657]
本研究では,未熟な語彙決定実験において,試行錯誤学習が検出できるかどうかを検討する。
我々は、分布意味論から表現する意味を持つ精神的語彙のモデルである差別的語彙モデル(DLM)を用いた。
我々の研究結果は、語彙的知識が継続的な変化の対象となる可能性を支持する。
論文 参考訳(メタデータ) (2022-07-01T13:49:30Z) - Characterizing the robustness of Bayesian adaptive experimental designs
to active learning bias [3.1351527202068445]
本研究では,学習バイアスがベイズ適応型実験設計に悪影響を及ぼすことを示す。
我々は,誤識別に関する情報理論的な尺度を開発し,誤識別の悪さが学習バイアスの重大化を示唆していることを示す。
論文 参考訳(メタデータ) (2022-05-27T01:23:11Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - A framework for predicting, interpreting, and improving Learning
Outcomes [0.0]
本研究では,学生の観察的,行動的,受験的特徴に基づいて,テストスコアを予測するEmbibe Score Quotient Model(ESQ)を開発した。
ESQは、学生の将来的な採点可能性の予測や、個別の学習ナッジの提供に使用することができる。
論文 参考訳(メタデータ) (2020-10-06T11:22:27Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。