論文の概要: Gamifying optimization: a Wasserstein distance-based analysis of human
search
- arxiv url: http://arxiv.org/abs/2112.06292v1
- Date: Sun, 12 Dec 2021 18:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:47:26.699425
- Title: Gamifying optimization: a Wasserstein distance-based analysis of human
search
- Title(参考訳): ゲーミゼーション最適化:wasserstein距離に基づく人間の探索分析
- Authors: Antonio Candelieri, Andrea Ponti, Francesco Archetti
- Abstract要約: 本稿では,不確実性の下での人間の意思決定戦略を特徴づける理論的枠組みを概説する。
本稿では,人間の学習者の行動パターンを離散確率分布として表現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main objective of this paper is to outline a theoretical framework to
characterise humans' decision-making strategies under uncertainty, in
particular active learning in a black-box optimization task and trading-off
between information gathering (exploration) and reward seeking (exploitation).
Humans' decisions making according to these two objectives can be modelled in
terms of Pareto rationality. If a decision set contains a Pareto efficient
strategy, a rational decision maker should always select the dominant strategy
over its dominated alternatives. A distance from the Pareto frontier determines
whether a choice is Pareto rational. To collect data about humans' strategies
we have used a gaming application that shows the game field, with previous
decisions and observations, as well as the score obtained. The key element in
this paper is the representation of behavioural patterns of human learners as a
discrete probability distribution. This maps the problem of the
characterization of humans' behaviour into a space whose elements are
probability distributions structured by a distance between histograms, namely
the Wasserstein distance (WST). The distributional analysis gives new insights
about human search strategies and their deviations from Pareto rationality.
Since the uncertainty is one of the two objectives defining the Pareto
frontier, the analysis has been performed for three different uncertainty
quantification measures to identify which better explains the Pareto compliant
behavioural patterns. Beside the analysis of individual patterns WST has also
enabled a global analysis computing the barycenters and WST k-means clustering.
A further analysis has been performed by a decision tree to relate non-Paretian
behaviour, characterized by exasperated exploitation, to the dynamics of the
evolution of the reward seeking process.
- Abstract(参考訳): 本研究の目的は,不確実性下での意思決定戦略,特にブラックボックス最適化タスクにおけるアクティブラーニング,情報収集(探索)と報酬探索(探索)のトレードオフを特徴付ける理論的枠組みを概説することである。
これら2つの目的に沿った人間の決定は、パレートの合理性の観点からモデル化することができる。
決定セットがパレート効率的な戦略を含んでいる場合、合理的な意思決定者は、支配的な戦略よりも支配的な戦略を選択するべきである。
パレート辺境からの距離は、選択がパレート有理であるかどうかを決定する。
人間の戦略に関するデータを収集するために、私たちはゲームフィールドを示すゲームアプリケーションを使用しました。
本稿では,人間の学習者の行動パターンを離散確率分布として表現する。
これは、人間の行動の特徴付けの問題を、ヒストグラム間の距離、すなわちwasserstein距離(wst)によって構成された確率分布である空間にマップする。
分布分析は、人間の探索戦略とパレート合理性からの逸脱に関する新たな洞察を与える。
この不確実性はパレートフロンティアを定義する2つの目標の1つであるため、パレートに準拠した行動パターンをよりよく説明するための3つの異なる不確実性定量化手法について分析が行われている。
個々のパターンの分析に加えて、wstはbarycentersとwst k-meansクラスタリングのグローバル分析を可能にした。
さらなる分析が決定木によって行われ、過剰な搾取によって特徴付けられる非パレシア的行動と報酬を求めるプロセスの進化のダイナミクスを関連付けている。
関連論文リスト
- Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Revealed Multi-Objective Utility Aggregation in Human Driving [15.976506570992292]
ゲーム理論解析における中心的な設計問題は、プレイヤーのユーティリティを推定することである。
合理性の概念に基づいて,多目的集約パラメータを推定するアルゴリズムを開発した。
ゲーム解決に使用される具体的なソリューション概念に関係なく,ユーティリティアグリゲーションをデータ駆動で推定することで,動作モデルの予測精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-03-13T19:29:17Z) - Ground(less) Truth: A Causal Framework for Proxy Labels in
Human-Algorithm Decision-Making [29.071173441651734]
人間のAI意思決定タスクにおけるプロキシラベルの有効性に影響を与える5つの変数バイアス源を同定する。
各バイアス間の関係を乱すための因果的枠組みを開発する。
今後の研究において、ターゲット変数バイアスに対処する機会について論じる。
論文 参考訳(メタデータ) (2023-02-13T16:29:11Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - From Cognitive to Computational Modeling: Text-based Risky
Decision-Making Guided by Fuzzy Trace Theory [5.154015755506085]
ファジィトレース理論(FTT)は、ジストを組み込むことで人間の意思決定を説明する強力なパラダイムである。
本稿では,テキストに基づく意思決定におけるセマンティクスと感情の影響を組み合わせた計算フレームワークを提案する。
特にカテゴリー2-を導入し、カテゴリー的ジストとカテゴリー的感情を学習し、グループや個人におけるリスクのある意思決定を予測するために、我々の計算モデルを最適化する方法を実証する。
論文 参考訳(メタデータ) (2022-05-15T02:25:28Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Uncertainty quantification and exploration-exploitation trade-off in
humans [0.0]
本稿では,不確実性下における人間の意思決定戦略が情報収集(探索)と報酬獲得(探索)のトレードオフをどのように管理するかを分析する理論的枠組みを概説する。
論文 参考訳(メタデータ) (2021-02-05T16:03:04Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。
ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。
理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文 参考訳(メタデータ) (2020-03-22T00:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。