論文の概要: Uniqueness and Complexity of Inverse MDP Models
- arxiv url: http://arxiv.org/abs/2206.01192v1
- Date: Thu, 2 Jun 2022 17:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 15:30:42.317806
- Title: Uniqueness and Complexity of Inverse MDP Models
- Title(参考訳): 逆MDPモデルの特異性と複雑さ
- Authors: Marcus Hutter and Steven Hansen
- Abstract要約: 逆 "MDP" モデル p(aa'a"|ss"') はそのような質問に答えるために用いられる。
フォワードモデルは逆モデルから推測できるのか、それともサイドステップで推測できるのか?
- 参考スコア(独自算出の注目度): 24.479217929802715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What is the action sequence aa'a" that was likely responsible for reaching
state s"' (from state s) in 3 steps? Addressing such questions is important in
causal reasoning and in reinforcement learning. Inverse "MDP" models
p(aa'a"|ss"') can be used to answer them. In the traditional "forward" view,
transition "matrix" p(s'|sa) and policy {\pi}(a|s) uniquely determine
"everything": the whole dynamics p(as'a's"a"...|s), and with it, the
action-conditional state process p(s's"...|saa'a"), the multi-step inverse
models p(aa'a"...|ss^i), etc. If the latter is our primary concern, a natural
question, analogous to the forward case is to which extent 1-step inverse model
p(a|ss') plus policy {\pi}(a|s) determine the multi-step inverse models or even
the whole dynamics. In other words, can forward models be inferred from inverse
models or even be side-stepped. This work addresses this question and
variations thereof, and also whether there are efficient decision/inference
algorithms for this.
- Abstract(参考訳): 3つのステップで状態 s"(状態 s から)に到達する原因となったアクションシーケンス aa'a" は何か?
このような疑問に取り組むことは因果推論や強化学習において重要である。
逆 "MDP" モデル p(aa'a"|ss"') はそれらに対応するために用いられる。
伝統的な「前方」の見方では、遷移 "matrix" p(s'|sa) とポリシー {\pi}(a|s) は「全て」を一意に決定する: 全体の力学 p(as'a's"a"...|s) とそれとともに、作用条件状態プロセス p(s's"...|saa'a) 、多段階逆モデル p(a'a"...|ss^i) などである。
後者が我々の主要な関心事である場合、フォワードの場合と類似する自然な質問は、1-ステップ逆モデル p(a|ss') + policy {\pi}(a|s) が多段逆モデルあるいは全体のダイナミクスを決定するかどうかである。
言い換えれば、フォワードモデルは逆モデルから推測されるか、あるいはサイドステップでもよい。
この研究は、この問題とそのバリエーション、およびこれに対する効率的な決定/推論アルゴリズムが存在するかどうかに対処する。
関連論文リスト
- Transforming and Combining Rewards for Aligning Large Language Models [69.44634017612798]
言語モデルを人間の好みに合わせるための一般的なアプローチは、まず好みデータから報酬モデルを学び、次にこの報酬モデルを使って言語モデルを更新する。
我々は、Bradley-Terry選好モデルから学んだ報酬を変換するために対数シグモイド関数を用いる。
RLHFを用いた言語モデルのアライメント実験は、ベースライン(非変換)アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-01T16:39:28Z) - Learning Recurrent Models with Temporally Local Rules [0.0]
生成モデルは、単に遷移確率ではなく、現在の状態と過去の状態の結合分布を学習することができることを示す。
この原則を取り入れたさまざまなアーキテクチャが、一般的に後方通過を必要とするデータの側面を学習できることを、おもちゃのデータセットで示しています。
論文 参考訳(メタデータ) (2023-10-20T05:30:30Z) - Explaining the Model and Feature Dependencies by Decomposition of the
Shapley Value [3.0655581300025996]
共有値は、複雑なモデルをエンドユーザに説明するためのゴートメソッドの1つになっています。
欠点の1つは、いくつかの機能が欠けている場合、常にモデルの出力を必要とすることである。
しかし、これは非自明な選択をもたらす: 未知の機能に条件を付けるか、しないか?
本稿では,両説明を組み合わせ,選択の負担を軽減し,シェープリー値の説明力を高めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-19T12:20:23Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Feature Cross Search via Submodular Optimization [58.15569071608769]
機能工学の基本的な基礎として機能横断探索について研究する。
この問題に対して単純なgreedy $(1-1/e)$-approximationアルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2021-07-05T16:58:31Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Estimating Stochastic Linear Combination of Non-linear Regressions
Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。
私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文 参考訳(メタデータ) (2020-10-19T07:15:38Z) - Model-Based Reinforcement Learning with Value-Targeted Regression [48.92439657407732]
我々は、遷移モデル $P$ が既知のモデルの族 $mathcalP$ に属する有限水平エピソード RL に焦点を当てる。
線形混合の特別な場合において、後悔束は $tildemathcalO(dsqrtH3T)$ という形を取る。
論文 参考訳(メタデータ) (2020-06-01T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。