Fugu-MT 論文翻訳(概要): Learning to Persuade on the Fly: Robustness Against Ignorance

論文の概要: Learning to Persuade on the Fly: Robustness Against Ignorance

arxiv url: http://arxiv.org/abs/2102.10156v1
Date: Fri, 19 Feb 2021 21:02:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-23 14:37:21.261546
Title: Learning to Persuade on the Fly: Robustness Against Ignorance
Title（参考訳）: 飛ぶことを学ぶ:無知に対するロバスト性
Authors: You Zu, Krishnamurthy Iyer and Haifeng Xu
Abstract要約: 送信者と受信機との間の繰り返しの説得設定を調査し、その都度$t$で、送信者は未知の事前分布から独立かつ同一に引き出されたペイオフ関連状態を観察する。標準設定と同様に、送信者は、状態に関する情報を選択的に共有することにより、受信者を説得して送信者の好みに沿った行動を選択する。標準モデルとは対照的に、送信者は先を知らないし、徐々に先をフライで学習しながら説得する必要があります。
参考スコア（独自算出の注目度）: 10.817873935576412
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study a repeated persuasion setting between a sender and a receiver, where at each time $t$, the sender observes a payoff-relevant state drawn independently and identically from an unknown prior distribution, and shares state information with the receiver, who then myopically chooses an action. As in the standard setting, the sender seeks to persuade the receiver into choosing actions that are aligned with the sender's preference by selectively sharing information about the state. However, in contrast to the standard models, the sender does not know the prior, and has to persuade while gradually learning the prior on the fly. We study the sender's learning problem of making persuasive action recommendations to achieve low regret against the optimal persuasion mechanism with the knowledge of the prior distribution. Our main positive result is an algorithm that, with high probability, is persuasive across all rounds and achieves $O(\sqrt{T\log T})$ regret, where $T$ is the horizon length. The core philosophy behind the design of our algorithm is to leverage robustness against the sender's ignorance of the prior. Intuitively, at each time our algorithm maintains a set of candidate priors, and chooses a persuasion scheme that is simultaneously persuasive for all of them. To demonstrate the effectiveness of our algorithm, we further prove that no algorithm can achieve regret better than $\Omega(\sqrt{T})$, even if the persuasiveness requirements were significantly relaxed. Therefore, our algorithm achieves optimal regret for the sender's learning problem up to terms logarithmic in $T$.
Abstract（参考訳）: 送信側と受信側との繰り返しの説得条件について検討し、その度に$t$で、送信側は未知の事前分布から独立に引き出されたペイオフ関連状態を観測し、受信側と状態情報を共有し、マイオプティックに動作を選択する。標準設定と同様に、送信者は受信者に状態に関する情報を選択的に共有することで、送信者の好みに沿った行動を選択するよう説得しようとします。しかし、標準的なモデルとは対照的に、送信者は先を知らないし、徐々に先をフライで学習しながら説得する必要があります。事前の分布の知識と最適な説得メカニズムに対して低い後悔を達成するために説得力のある行動勧告を作成するという送信者の学習問題を研究します。我々の主な肯定的な結果は、高い確率で全ラウンドにわたって説得可能であり、$O(\sqrt{T\log T})$ regret, ここでは$T$は地平線長である。アルゴリズムの設計の背後にある中核的な哲学は、送信者の事前の無知に対する堅牢性を活用することである。直感的には、我々のアルゴリズムは候補の事前の集合を維持し、それらすべてに対して同時に説得力のある説得スキームを選択する。提案アルゴリズムの有効性を示すために,提案アルゴリズムは,説得性要件が著しく緩和された場合でも,$\Omega(\sqrt{T})$以上の後悔を達成できないことを証明した。そこで,本アルゴリズムは,送信者の学習問題を最大で$T$の対数問題に最適の後悔を与える。

関連論文リスト

Information Bargaining: Bilateral Commitment in Bayesian Persuasion [60.3761154043329]
長期的説得のための統一的なフレームワークとよく構造化されたソリューションの概念を導入する。この視点はゲーム構造の共通知識を明確にし、レシーバに匹敵するコミットメント能力を与える。このフレームワークは、2段階の検証と推論のパラダイムによって検証される。
論文参考訳（メタデータ） (2025-06-06T08:42:34Z)
Deceptive Sequential Decision-Making via Regularized Policy Optimization [54.38738815697299]
システムの基本的報酬に対する敵意を積極的に欺く政策合成問題に対する2つの正則化戦略を提示する。政策最適化問題において,各形態の騙しをいかに実装できるかを示す。ディバータリーの詐欺は、最も重要なエージェントが最重要であると敵に信じさせ、同時に、その最適で非知覚的な価値の980.83%の合計的な報酬を得ることを示せる。
論文参考訳（メタデータ） (2025-01-30T23:41:40Z)
Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。 MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文参考訳（メタデータ） (2024-06-06T16:18:20Z)
Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文参考訳（メタデータ） (2024-04-16T17:59:55Z)
Learning How to Strategically Disclose Information [6.267574471145217]
送信者が未知のタイプの受信機と対話する情報設計のオンライン版を考える。我々は、$mathcalO(sqrtT)$ regretが完全な情報フィードバックで達成可能であることを示す。また,一般凸ユーティリティ関数に対して$mathcalO(sqrtT)$ regretを送信者が達成できる新しいパラメトリゼーションを提案する。
論文参考訳（メタデータ） (2024-03-13T17:44:16Z)
Markov Persuasion Processes: Learning to Persuade from Scratch [37.92189925462977]
ベイズによる説得では、情報発信者は、望ましい行動をとるよう説得するために、情報を受信者に戦略的に開示する。我々は、部分的なフィードバックで作業する送信者のための学習アルゴリズムを設計する。最適情報開示ポリシーに対する後悔はエピソード数で微妙に増加することを証明している。
論文参考訳（メタデータ） (2024-02-05T15:09:41Z)
Algorithmic Persuasion Through Simulation [51.23082754429737]
本研究では,受取人に製品購入などの二元的行動を取るよう説得するベイズ説得ゲームについて検討する。送信者は、製品の品質が高いか低いかなどの世界の(バイナリ)状態について通知されるが、受信者の信念やユーティリティに関する情報は限られている。顧客の調査やユーザスタディ、最近のAIの進歩によって動機づけられた私たちは、受信者の振る舞いをシミュレートする託宣をクエリすることで、送信側が受信者についてより深く学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-29T23:01:33Z)
Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文参考訳（メタデータ） (2023-08-29T18:18:21Z)
Sequential Information Design: Learning to Persuade in the Dark [49.437419242582884]
本研究では,自己関心の受信者の行動に影響を及ぼそうとする情報発信者が直面する繰り返し情報設計問題について検討する。各ラウンドにおいて、送信者は、シーケンシャル意思決定(SDM)問題におけるランダムイベントの実現を観察する。これは、そのような情報をレシーバーに段階的に開示し、彼らが(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。
論文参考訳（メタデータ） (2022-09-08T17:08:12Z)
Peer Selection with Noisy Assessments [43.307040330622186]
現在最も正確なピアレビューアルゴリズムであるPeerNominationをWeightedPeerNominationに拡張します。重み付け方式により、選択の全体的な精度が大幅に向上できることを解析的に示す。
論文参考訳（メタデータ） (2021-07-21T14:47:11Z)
VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文参考訳（メタデータ） (2020-04-19T18:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。