Fugu-MT 論文翻訳(概要): Incentivizing Compliance with Algorithmic Instruments

論文の概要: Incentivizing Compliance with Algorithmic Instruments

arxiv url: http://arxiv.org/abs/2107.10093v1
Date: Wed, 21 Jul 2021 14:10:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-22 14:03:06.978657
Title: Incentivizing Compliance with Algorithmic Instruments
Title（参考訳）: アルゴリズム機器によるコンプライアンスのインセンティブ化
Authors: Daniel Ngo, Logan Stapleton, Vasilis Syrgkanis, Zhiwei Steven Wu
Abstract要約: 本稿では,時間とともに変化する動的行動としてコンプライアンスを研究するゲーム理論モデルを提案する。本研究では,エージェントの行動選択にのみ影響する機器変数(IV)の形式として,プランナーの推薦を反映する新しい推薦機構を開発する。
参考スコア（独自算出の注目度）: 31.11365977878446
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Randomized experiments can be susceptible to selection bias due to potential non-compliance by the participants. While much of the existing work has studied compliance as a static behavior, we propose a game-theoretic model to study compliance as dynamic behavior that may change over time. In rounds, a social planner interacts with a sequence of heterogeneous agents who arrive with their unobserved private type that determines both their prior preferences across the actions (e.g., control and treatment) and their baseline rewards without taking any treatment. The planner provides each agent with a randomized recommendation that may alter their beliefs and their action selection. We develop a novel recommendation mechanism that views the planner's recommendation as a form of instrumental variable (IV) that only affects an agents' action selection, but not the observed rewards. We construct such IVs by carefully mapping the history -- the interactions between the planner and the previous agents -- to a random recommendation. Even though the initial agents may be completely non-compliant, our mechanism can incentivize compliance over time, thereby enabling the estimation of the treatment effect of each treatment, and minimizing the cumulative regret of the planner whose goal is to identify the optimal treatment.
Abstract（参考訳）: ランダム化実験は、参加者による潜在的非コンプライアンスによる選択バイアスの影響を受けやすい。既存の研究の多くは静的な振る舞いとしてコンプライアンスを研究してきたが、時間とともに変化する動的な振る舞いとしてコンプライアンスを研究するゲーム理論モデルを提案する。ラウンドでは、社会的プランナーが不均一なエージェントの連続と相互作用し、未観測のプライベートタイプが、アクション(例えば、制御と治療)とベースラインの報酬の両方を、治療を受けずに決定する。プランナーは各エージェントに、信念と行動選択を変える可能性のあるランダムな推奨を与える。提案手法は,エージェントの行動選択にのみ影響するが,観察された報酬には影響しない機器変数(IV)の形式として,プランナーの推薦を反映する。我々は、プランナーと前のエージェント間のインタラクションである履歴をランダムなレコメンデーションに慎重にマッピングすることで、そのようなIVを構築する。初期薬品が完全に非適合であるとしても、この機構は経時的にコンプライアンスをインセンティブ化し、各治療の処置効果を推定し、最適な治療の特定を目標とするプランナーの累積的後悔を最小化することができる。

関連論文リスト

Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
Robust Planning for Autonomous Driving via Mixed Adversarial Diffusion Predictions [51.88828388720111]
本稿では、通常と逆のエージェント予測を混合した自律運転のロバストな計画手法について述べる。本研究では,実験時の拡散モデルに偏りを生じさせ,候補計画と衝突する可能性のある予測を生成することにより,逆予測の分布を生成する。本手法が単エージェントおよび多エージェントジェイウォーキングシナリオおよび赤信号違反シナリオに与える影響について述べる。
論文参考訳（メタデータ） (2025-05-18T09:44:57Z)
Towards Regulatory-Confirmed Adaptive Clinical Trials: Machine Learning Opportunities and Solutions [59.28853595868749]
本研究は,全人口と低給付人口の規制制約と治療方針値を統合した将来の臨床試験の新たな2つの目的を紹介する。我々は、第III相臨床試験を設計するための新しい枠組みであるRFAN(Randomize First Augment Next)を定式化する。我々のフレームワークは、標準的なランダム化コンポーネントと適応コンポーネントから構成されており、臨床試験中に患者を効率よく安全に獲得し、患者を治療アームに割り当てることを目的としている。
論文参考訳（メタデータ） (2025-03-12T10:17:54Z)
Learning to Plan with Personalized Preferences [27.972543891602033]
PbP(Preference-based Planning)ベンチマークは、原子のアクションから複雑なシーケンスにまたがる数百のさまざまな好みを具現化したベンチマークである。我々のSOTA手法の評価では, シンボルベースのアプローチはスケーラビリティを約束するが, パーソナライズされた好みを満たす計画の生成と実行には大きな課題が残っている。これらの知見は、適応計画のための貴重な抽象化レイヤとして、優先誘導計画の生成と実行に関する新たな研究の方向性を定めている。
論文参考訳（メタデータ） (2025-02-02T17:16:25Z)
Joint Scoring Rules: Zero-Sum Competition Avoids Performative Prediction [0.0]
意思決定シナリオでは、プリンシパルは専門家エージェントから条件付き予測を使用して、選択を通知することができる。予測精度を最適化するエージェントは、プリンシパルをより予測可能な行動に向けて操作するインセンティブを与え、プリンシパルが真の嗜好を決定的に選択できないようにする。我々は,複数のエージェントの協調評価により,この不可能な結果を克服できることを実証した。
論文参考訳（メタデータ） (2024-12-30T06:06:45Z)
Rejecting Hallucinated State Targets during Planning [84.179112256683]
この研究はまず、いくつかの非実用目標の特性を分類し、調査する。汎用的目標評価器を用いて、実現不可能な目標を拒否する戦略を考案する。適切な設計がなければ、評価者は妄想的な見積もりを生成でき、戦略を無駄にする。
論文参考訳（メタデータ） (2024-10-09T17:35:25Z)
Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文参考訳（メタデータ） (2024-08-09T16:03:44Z)
Dynamic Local Average Treatment Effects [19.014535120129338]
我々は,デジタルレコメンデーションや適応医療トライアルなどの応用において,一方的不適合を伴う動的治療規則(DTR)を検討する。単一ステップでの処理に対応する動的LATEを識別できることが示される。
論文参考訳（メタデータ） (2024-05-02T16:52:09Z)
Operationalizing Counterfactual Metrics: Incentives, Ranking, and Information Asymmetry [62.53919624802853]
このような平均的な治療結果の指標から生じるインセンティブのずれを分析した。本稿では,患者が対象とするランキングシステムにおいて,対物メトリクスを合理的に振る舞うように修正する方法を示す。
論文参考訳（メタデータ） (2023-05-24T00:24:38Z)
Debiasing the Cloze Task in Sequential Recommendation with Bidirectional Transformers [0.0]
Inverse Propensity Scoring (IPS) は、問題の時間的性質を考慮しないため、逐次的なレコメンデーションに拡張されない。そこで我々は,Clozeタスクの逐次的推奨を理論的に無視できる新しい確率スコアリング機構を提案する。
論文参考訳（メタデータ） (2023-01-22T21:44:25Z)
Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文参考訳（メタデータ） (2023-01-20T15:28:09Z)
Conditional Generation Net for Medication Recommendation [73.09366442098339]
医薬推奨は、患者の診断に従って適切な薬セットを提供することを目標としており、これは診療所において重要な課題である。医薬品群を生成するための新しいコピー・アンド・予測機構を導入した条件生成ネット(COGNet)を提案する。提案手法を公開MIMICデータセット上で検証し,実験結果から,提案手法が最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2022-02-14T10:16:41Z)
Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文参考訳（メタデータ） (2021-09-14T14:56:23Z)
Treatment Allocation with Strategic Agents [0.0]
最適規則はランダム化を伴い,100%未満の確率で治療をアロケートし,治療に対して平均的に正の反応を示した者に対しても有効であることを示す。本研究では,ベイズ最適化に基づく逐次的実験を提案し,個別の戦略行動に関するパラメトリックな仮定を伴わない最適処理規則に収束する。
論文参考訳（メタデータ） (2020-11-12T17:40:53Z)
Incentivizing Exploration with Selective Data Disclosure [70.11902902106014]
効率的な探索を促すレコメンデーションシステムを提案し設計する。エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文参考訳（メタデータ） (2018-11-14T19:29:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。