論文の概要: Modelling bounded rational decision-making through Wasserstein constraints
- arxiv url: http://arxiv.org/abs/2504.03743v1
- Date: Tue, 01 Apr 2025 15:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:13:03.202424
- Title: Modelling bounded rational decision-making through Wasserstein constraints
- Title(参考訳): ワッサーシュタイン制約による有界有理決定のモデル化
- Authors: Benjamin Patrick Evans, Leo Ardon, Sumitra Ganesh,
- Abstract要約: 情報制約処理による有界な合理的意思決定をモデル化することは、原則化されたアプローチを提供する。
既存のアプローチは一般にエントロピー(Entropy)、Kulback-Leibler分散(Kullback-Leibler divergence)、相互情報(Mutual Information)に基づいている。
ワッサーシュタイン距離を利用した有界有理RLエージェントをモデル化するための代替手法を提案する。
- 参考スコア(独自算出の注目度): 3.3161769688599025
- License:
- Abstract: Modelling bounded rational decision-making through information constrained processing provides a principled approach for representing departures from rationality within a reinforcement learning framework, while still treating decision-making as an optimization process. However, existing approaches are generally based on Entropy, Kullback-Leibler divergence, or Mutual Information. In this work, we highlight issues with these approaches when dealing with ordinal action spaces. Specifically, entropy assumes uniform prior beliefs, missing the impact of a priori biases on decision-makings. KL-Divergence addresses this, however, has no notion of "nearness" of actions, and additionally, has several well known potentially undesirable properties such as the lack of symmetry, and furthermore, requires the distributions to have the same support (e.g. positive probability for all actions). Mutual information is often difficult to estimate. Here, we propose an alternative approach for modeling bounded rational RL agents utilising Wasserstein distances. This approach overcomes the aforementioned issues. Crucially, this approach accounts for the nearness of ordinal actions, modeling "stickiness" in agent decisions and unlikeliness of rapidly switching to far away actions, while also supporting low probability actions, zero-support prior distributions, and is simple to calculate directly.
- Abstract(参考訳): 情報制約処理による有界な有理的意思決定のモデル化は、強化学習フレームワーク内での合理性からの離脱を表現するための原則的アプローチを提供すると同時に、意思決定を最適化プロセスとして扱う。
しかし、既存のアプローチは一般にエントロピー(Entropy)、クルバック・リーブラー分岐(Kullback-Leibler divergence)、相互情報(Mutual Information)に基づいている。
本研究では、順序空間を扱う際に、これらのアプローチの問題点を取り上げる。
具体的には、エントロピーは、先入観のバイアスが意思決定に与える影響を欠いた、均一な先入観を仮定する。
しかし、KL-ディヴァージェンスはこのことに対処し、作用の「近さ」という概念を持たず、また対称性の欠如など、よく知られた潜在的に望ましくない性質がいくつかあり、さらに、分布に同じ支持(例えば全ての作用に対する正の確率)を必要とする。
相互情報は、しばしば見積もることが難しい。
本稿では,ワッサーシュタイン距離を利用した有界有理RLエージェントのモデリング手法を提案する。
このアプローチは前述の問題を克服します。
重要なことに、このアプローチは、エージェント決定における「平穏さ」をモデル化し、迅速に遠くのアクションに切り替える独特な点と、低確率アクションをサポートし、サポートなしの事前分布をサポートし、直接的に計算することの容易さを考慮に入れている。
関連論文リスト
- Robust Counterfactual Inference in Markov Decision Processes [1.5197843979051473]
現在のアプローチでは、カウンターファクトを識別するために特定の因果モデルを想定している。
反実遷移確率の厳密な境界を計算できる新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T13:56:20Z) - Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。
非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文 参考訳(メタデータ) (2024-08-20T19:06:02Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Entropy, Information, and the Updating of Probabilities [0.0]
本稿では,推論の一般的な枠組みとして,最大エントロピー法に対する特定のアプローチを概説する。
ME法は1つの後部の単なる選択を越えているが、他の分布がどれだけ少ないかという問題にも対処する。
論文 参考訳(メタデータ) (2021-07-09T16:27:23Z) - Algorithmic Recourse in Partially and Fully Confounded Settings Through
Bounding Counterfactual Effects [0.6299766708197883]
アルゴリズムリコースは、自動意思決定システムからより好ましい結果を得るために、個人に実行可能なレコメンデーションを提供することを目的としている。
既存の手法では,データから学習した因果モデルを用いて,隠れたコンバウンディングや付加雑音などの仮定をモデル化する手法が提案されている。
本稿では、これらの仮定を緩和し、観測不能な共役および任意の構造方程式を可能にする離散確率変数に対する別のアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-22T15:07:49Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Algorithmic recourse under imperfect causal knowledge: a probabilistic
approach [15.124107808802703]
真の構造方程式にアクセスできることなく、リコースを保証することは不可能であることを示す。
本稿では,限られた因果的知識が与えられた場合,高い確率で会話を遂行する最適な行動を選択するための2つの確率的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-11T21:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。