論文の概要: Sequential Decision Problems with Weak Feedback
- arxiv url: http://arxiv.org/abs/2212.11603v1
- Date: Thu, 22 Dec 2022 10:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 13:49:49.018733
- Title: Sequential Decision Problems with Weak Feedback
- Title(参考訳): 弱フィードバックを用いた逐次決定問題
- Authors: Arun Verma
- Abstract要約: この論文は、観察されたフィードバックから行動を選択するために生じる損失を推測できない、教師なしの逐次選択問題に焦点を当てている。
また,特定の条件下で行動を選択する際に発生する損失を観測できるCensored Semi Banditsという新しい設定も導入する。
これらの問題は、医療、クラウドソーシング、セキュリティ、アダプティブリソースアロケーションなど、多くの分野で応用されている。
- 参考スコア(独自算出の注目度): 5.1398743023989555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis considers sequential decision problems, where the loss/reward
incurred by selecting an action may not be inferred from observed feedback. A
major part of this thesis focuses on the unsupervised sequential selection
problem, where one can not infer the loss incurred for selecting an action from
observed feedback. We also introduce a new setup named Censored Semi Bandits,
where the loss incurred for selecting an action can be observed under certain
conditions. Finally, we study the channel selection problem in the
communication networks, where the reward for an action is only observed when no
other player selects that action to play in the round. These problems find
applications in many fields like healthcare, crowd-sourcing, security, adaptive
resource allocation, among many others. This thesis aims to address the
above-described sequential decision problems by exploiting specific structures
these problems exhibit. We develop provably optimal algorithms for each of
these setups with weak feedback and validate their empirical performance on
different problem instances derived from synthetic and real datasets.
- Abstract(参考訳): この論文は、観察されたフィードバックから行動を選択することによって生じる損失/逆の損失を推測できない、シーケンシャルな決定問題を考察する。
この論文の主要な部分は教師なしのシーケンシャル選択問題であり、観察されたフィードバックからアクションを選択する際に発生する損失を推測することはできない。
また,特定の条件下で行動を選択する際に発生する損失を観測できるCensored Semi Banditsという新しい設定も導入する。
最後に,通信ネットワークにおけるチャネル選択問題について検討し,他のプレーヤがラウンドでプレーするアクションを選択しない場合にのみ,アクションに対する報酬が観測される。
これらの問題は、医療、クラウドソーシング、セキュリティ、アダプティブリソース割り当てなど、多くの分野で応用されている。
本論文は,これらの課題の具体的構造を生かして,上記の逐次的決定問題に対処することを目的としている。
我々は,これらの設定に対して,弱いフィードバックで最適なアルゴリズムを開発し,合成および実データから導出する異なる問題インスタンスにおいて,その経験的性能を検証する。
関連論文リスト
- Active Learning for Fair and Stable Online Allocations [6.23798328186465]
我々は、オンラインリソース割り当てプロセスの各エポックにおいて、エージェントの特定のサブセットからのフィードバックを検討する。
提案アルゴリズムは,様々な測度に対して,時系列のサブ線形な後悔境界を提供する。
我々は,効率的な意思決定には広範なフィードバックは必要とせず,様々な問題クラスに対して効率的な結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-06-20T23:23:23Z) - Learning Fair Policies for Multi-stage Selection Problems from
Observational Data [4.282745020665833]
我々は、観測データから多段階選択問題に対する公正なポリシーを学習する問題を考察する。
この問題は、企業の雇用、ローン承認、または、選択された結果のみが観察されるような保釈決定など、いくつかの高い評価の領域で発生する。
本稿では,人口格差や平等機会など,様々な公平性制約で拡張可能な多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T16:33:15Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Synopsis: Sequential Decision Problems with Weak Feedback [5.1398743023989555]
この論文は、観察されたフィードバックから行動を選択するために生じる損失を推測できない、教師なしの逐次選択問題に焦点を当てている。
また,特定の条件下で行動を選択する際に発生する損失を観測できるCensored Semi Banditsという新しい設定も導入する。
これらの問題は、医療、クラウドソーシング、セキュリティ、アダプティブリソースアロケーションなど、多くの分野で応用されている。
論文 参考訳(メタデータ) (2022-12-22T10:48:56Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Diffusion Approximations for a Class of Sequential Testing Problems [0.0]
私達は市場へ進水するプロダクトの最適の品揃えを選びたいと思う販売人の問題を研究します。
電子商取引における新興の慣行に触発されて、売り手はこれらの嗜好を学習するためにクラウド投票システムを利用することができると仮定する。
論文 参考訳(メタデータ) (2021-02-13T23:21:29Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Learning to Recover Reasoning Chains for Multi-Hop Question Answering
via Cooperative Games [66.98855910291292]
本稿では,弱い教師付き信号から推論連鎖を復元する学習法を提案する。
証拠通路をどのように選択し、どのように選択された通路を接続するかを2つのモデルで処理する。
評価のために、2つのマルチホップQAデータセットに基づいたベンチマークを作成しました。
論文 参考訳(メタデータ) (2020-04-06T03:54:38Z) - Robust Active Preference Elicitation [10.961537256186498]
ペアワイズ比較クエリを適度に数えることで、意思決定者の好みを抽出する問題について検討する。
私たちは、不足するリソースを割り当てるためのポリシーを選択する場合など、高利害ドメインのアプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2020-03-04T05:24:08Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。