論文の概要: Sequential sampling without comparison to boundary through model-free reinforcement learning
- arxiv url: http://arxiv.org/abs/2408.06080v1
- Date: Mon, 12 Aug 2024 11:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 13:23:51.952788
- Title: Sequential sampling without comparison to boundary through model-free reinforcement learning
- Title(参考訳): モデルレス強化学習による境界値比較のない逐次サンプリング
- Authors: Jamal Esmaily, Rani Moran, Yasser Roudi, Bahador Bahrami,
- Abstract要約: 不確実性を考慮した知覚決定のためのモデルなし強化学習アルゴリズムを提案する。
我々のモデルは、利用可能な証拠を与えられた決定にコミットするか、あるいは情報収集をコストで継続するかを学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although evidence integration to the boundary model has successfully explained a wide range of behavioral and neural data in decision making under uncertainty, how animals learn and optimize the boundary remains unresolved. Here, we propose a model-free reinforcement learning algorithm for perceptual decisions under uncertainty that dispenses entirely with the concepts of decision boundary and evidence accumulation. Our model learns whether to commit to a decision given the available evidence or continue sampling information at a cost. We reproduced the canonical features of perceptual decision-making such as dependence of accuracy and reaction time on evidence strength, modulation of speed-accuracy trade-off by payoff regime, and many others. By unifying learning and decision making within the same framework, this model can account for unstable behavior during training as well as stabilized post-training behavior, opening the door to revisiting the extensive volumes of discarded training data in the decision science literature.
- Abstract(参考訳): 境界モデルへのエビデンス統合は、不確実性の下での意思決定において、幅広い行動データと神経データをうまく説明しているが、動物が境界を学習し、最適化する方法は未解決のままである。
本稿では,決定境界の概念と証拠蓄積を完全に排除した不確実性の下での知覚決定のためのモデルフリー強化学習アルゴリズムを提案する。
我々のモデルは、利用可能な証拠を与えられた決定にコミットするか、あるいは情報収集をコストで継続するかを学習する。
我々は, 精度と反応時間による証拠強度の依存性, ペイオフ体制による速度精度トレードオフの調整など, 知覚的意思決定の規範的特徴を再現した。
同じ枠組み内で学習と意思決定を統一することにより、このモデルはトレーニング中に不安定な振る舞いを考慮し、訓練後の動作を安定させ、意思決定科学文献における大量の捨てられたトレーニングデータを再考する扉を開くことができる。
関連論文リスト
- Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Bounding-Box Inference for Error-Aware Model-Based Reinforcement Learning [4.185571779339683]
モデルに基づく強化学習では、シミュレーションされた経験は実環境からの経験と同等のものとして扱われることが多い。
モデルベースの更新に対する不確実性を推定するために、最適結果が分布に敏感な推測を必要とすることを示す。
境界ボックス推論は効果的な選択計画を支援することができる。
論文 参考訳(メタデータ) (2024-06-23T04:23:15Z) - Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。
診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。
本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文 参考訳(メタデータ) (2024-03-09T13:48:20Z) - Adaptive Bayesian Learning with Action and State-Dependent Signal
Variance [0.0]
この原稿は、行動と状態依存的な信号分散を意思決定モデルに組み込むことにより、ベイズ学習の先進的な枠組みを提示する。
この枠組みは、様々な経済システムにおける複雑なデータフィードバックループと意思決定プロセスを理解する上で重要である。
論文 参考訳(メタデータ) (2023-11-20T17:59:30Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Post-hoc Uncertainty Learning using a Dirichlet Meta-Model [28.522673618527417]
本研究では,不確実性定量化能力の優れた事前学習モデルを構築するための新しいベイズメタモデルを提案する。
提案手法は追加のトレーニングデータを必要としないため,不確かさの定量化に十分な柔軟性がある。
提案するメタモデルアプローチの柔軟性と,これらのアプリケーションに対する優れた経験的性能を実証する。
論文 参考訳(メタデータ) (2022-12-14T17:34:11Z) - RISE: Robust Individualized Decision Learning with Sensitive Variables [1.5293427903448025]
素直なベースラインは、決定規則を学習する際の繊細な変数を無視し、重大な不確実性と偏見をもたらすことである。
本稿では、オフライントレーニング中に機密変数を組み込む決定学習フレームワークを提案するが、モデル展開中に学習された決定ルールの入力には含まない。
論文 参考訳(メタデータ) (2022-11-12T04:31:38Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Limitations of a proposed correction for slow drifts in decision
criterion [0.0]
ランダムドリフトからの系統的な更新を曖昧にするためのモデルに基づくアプローチを提案する。
提案手法は,決定基準におけるドリフトの潜航軌跡を正確に回復することを示す。
本結果は,生成過程の仮定を直接意思決定モデルに組み込むことの利点を強調した。
論文 参考訳(メタデータ) (2022-05-22T19:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。