論文の概要: Observational Learning with a Budget
- arxiv url: http://arxiv.org/abs/2504.19396v1
- Date: Mon, 28 Apr 2025 00:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.272164
- Title: Observational Learning with a Budget
- Title(参考訳): 予算による観察学習
- Authors: Shuo Wu, Pawan Poojary, Randall Berry,
- Abstract要約: エージェントの列が世界の二元状態に関するプライベート信号を受信する観察学習のモデルを考える。
中央プランナーは、エージェント間の信号品質を高めるために限られた予算を割り当てることで、これらの信号の精度を向上させることを目指している。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a model of Bayesian observational learning in which a sequence of agents receives a private signal about an underlying binary state of the world. Each agent makes a decision based on its own signal and its observations of previous agents. A central planner seeks to improve the accuracy of these signals by allocating a limited budget to enhance signal quality across agents. We formulate and analyze the budget allocation problem and propose two optimal allocation strategies. At least one of these strategies is shown to maximize the probability of achieving a correct information cascade.
- Abstract(参考訳): エージェントの列が世界の二元状態に関するプライベート信号を受け取るベイズ観測学習のモデルを考える。
各エージェントは、自身の信号と以前のエージェントの観測に基づいて決定を行う。
中央プランナーは、エージェント間の信号品質を高めるために限られた予算を割り当てることで、これらの信号の精度を向上させることを目指している。
予算配分問題を定式化し分析し、2つの最適配分戦略を提案する。
これらの戦略の少なくとも1つは、正しい情報カスケードを達成する確率を最大化することを示す。
関連論文リスト
- Bayesian Persuasion with Externalities: Exploiting Agent Types [21.508431216175143]
ベイズ的説得問題と外部性について検討する。
このモデルでは、プリンシパルが複数のエージェントに世界の状況を伝える信号を送信する。
本研究は,プリンシパルのための最適なシグナリング戦略の計算問題について考察する。
論文 参考訳(メタデータ) (2024-12-17T12:41:17Z) - Distributionally Robust Inverse Reinforcement Learning for Identifying Multi-Agent Coordinated Sensing [13.440621354486906]
我々は、マルチエージェントセンシングシステムの実用機能を再構築するために、分布性に頑健な逆強化学習(IRL)アルゴリズムを導出する。
このロバストな推定と半無限の最適化再構成の等価性を証明し、計算解に対する一貫したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-22T17:44:32Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Persuasion, Delegation, and Private Information in Algorithm-Assisted
Decisions [0.0]
プリンシパルは、バイナリ状態の公開観測可能な予測を生成するアルゴリズムを設計する。
彼女は、予測に基づいて直接行動するか、または、私的な情報を持つエージェントに決定を委譲するかを判断しなければならない。
このような環境における予測アルゴリズムとデリゲートルールの最適設計について検討する。
論文 参考訳(メタデータ) (2024-02-14T18:32:30Z) - Bandit Pareto Set Identification: the Fixed Budget Setting [10.967572582187014]
マルチアームバンディットモデルにおける純粋探索問題について検討する。
目的は、平均値が他の分布よりも均一に悪くない分布を特定することである。
論文 参考訳(メタデータ) (2023-11-07T13:43:18Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Informational Design of Dynamic Multi-Agent System [32.37168850559519]
報償関連環境信号の技術がインテリジェントエージェントの行動にどのように影響するかを研究する。
直接的な情報設計に焦点を合わせることは一般性の損失がないと述べる従順な原則が確立されます。
エージェントにプリンシパルが送信する信号を選択するインセンティブを与える固定点アライメント(fix-point alignment)と呼ばれるアプローチに基づいて、フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-07T03:46:14Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。