Fugu-MT 論文翻訳(概要): Persuading a Behavioral Agent: Approximately Best Responding and Learning

論文の概要: Persuading a Behavioral Agent: Approximately Best Responding and Learning

arxiv url: http://arxiv.org/abs/2302.03719v1
Date: Tue, 7 Feb 2023 19:12:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-09 18:18:40.558242
Title: Persuading a Behavioral Agent: Approximately Best Responding and Learning
Title（参考訳）: 行動エージェントを説得する: ほぼ最良の反応と学習
Authors: Yiling Chen, Tao Lin
Abstract要約: 本研究では,受信機が送信者の信号処理方式にほぼ最もよく対応できるベイズ説得モデルの緩和について検討する。自然な仮定の下では,送信側は,予測ユーティリティが最適ユーティリティとほぼ同等に優れたことを保証した信号処理方式を見つけることができることを示す。
参考スコア（独自算出の注目度）: 9.122524488932573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The classic Bayesian persuasion model assumes a Bayesian and best-responding receiver. We study a relaxation of the Bayesian persuasion model where the receiver can approximately best respond to the sender's signaling scheme. We show that, under natural assumptions, (1) the sender can find a signaling scheme that guarantees itself an expected utility almost as good as its optimal utility in the classic model, no matter what approximately best-responding strategy the receiver uses; (2) on the other hand, there is no signaling scheme that gives the sender much more utility than its optimal utility in the classic model, even if the receiver uses the approximately best-responding strategy that is best for the sender. Together, (1) and (2) imply that the approximately best-responding behavior of the receiver does not affect the sender's maximal achievable utility a lot in the Bayesian persuasion problem. The proofs of both results rely on the idea of robustification of a Bayesian persuasion scheme: given a pair of the sender's signaling scheme and the receiver's strategy, we can construct another signaling scheme such that the receiver prefers to use that strategy in the new scheme more than in the original scheme, and the two schemes give the sender similar utilities. As an application of our main result (1), we show that, in a repeated Bayesian persuasion model where the receiver learns to respond to the sender by some algorithms, the sender can do almost as well as in the classic model. Interestingly, unlike (2), with a learning receiver the sender can sometimes do much better than in the classic model.
Abstract（参考訳）: 古典的なベイジアン説得モデルは、ベイジアンおよび最良応答受信機を仮定する。本研究では,受信機が送信者の信号処理方式にほぼ最もよく対応できるベイズ説得モデルの緩和について検討する。その結果,(1) 送信側は,(1) 送信側が従来のモデルにおいて,最も最適な応答戦略がどんなに最適であっても,期待する効用を保証できる信号方式を見つけることができ,(2) 送信側が従来のモデルで最適効用よりもはるかに有効であるような信号方式は,受信側が送信側にとって最善の応答戦略を用いていたとしても,存在しないことがわかった。併せて、(1)および(2)は、受信者のほぼ最善応答挙動が、ベイズ説得問題において送信者の最大到達可能ユーティリティにはあまり影響しないことを示す。両方の結果の証明はベイズ的説得スキームの強固化の考え方に依存している: 送信者の信号方式と受信者の戦略のペアが与えられた場合、受信者がその戦略を元のスキームよりも新しいスキームで使うことを好むような別のシグナリングスキームを構築することができ、2つのスキームは送信者の同様のユーティリティを提供する。主な結果(1)の適用例として、受信者がいくつかのアルゴリズムで送信者への応答を学習するベイズ的説得モデルにおいて、送信側は従来のモデルとほぼ同じように行うことができることを示す。興味深いことに、(2) とは異なり、学習受信機では、送信者は古典モデルよりもずっと良いことができる。

関連論文リスト

Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Information Bargaining: Bilateral Commitment in Bayesian Persuasion [60.3761154043329]
長期的説得のための統一的なフレームワークとよく構造化されたソリューションの概念を導入する。この視点はゲーム構造の共通知識を明確にし、レシーバに匹敵するコミットメント能力を与える。このフレームワークは、2段階の検証と推論のパラダイムによって検証される。
論文参考訳（メタデータ） (2025-06-06T08:42:34Z)
Information-Theoretic Reward Decomposition for Generalizable RLHF [51.550547285296794]
我々は報酬値を2つの独立したコンポーネントに分解する。提案手法は,データサンプルを不利な報酬値に基づいて優先順位付けすることで,新たな報酬学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-08T13:26:07Z)
Off-Policy Evaluation for Sequential Persuasion Process with Unobserved Confounding [2.7282382992043885]
現実のシナリオは、しばしば受信者の信念の形成と意思決定に影響を与える隠された変数を含む。我々はこれをシーケンシャルな意思決定問題として概念化し、送信側と受信側が複数のラウンドで対話する。このシナリオを部分観測可能なマルコフ決定プロセス (POMDP) として再構成することにより、受信者の信念と観測不能な共同創設者の両方のダイナミクスに関する不完全な情報をキャプチャする。
論文参考訳（メタデータ） (2025-04-01T21:50:32Z)
Efficient Model-agnostic Alignment via Bayesian Persuasion [13.42367964190663]
本稿では,モデル非依存かつ軽量なベイズ型説得アライメントフレームワークを提案する。説得プロセスでは、小さなモデル(アドバイザ)が情報項目(すなわち状態)を観察し、大きなモデル(Receiver)を説得して、改善された応答を引き出す。 GPT-2は様々なモデルの性能を大幅に向上させ,数学的推論能力の平均16.1%,コード生成能力は13.7%向上した。
論文参考訳（メタデータ） (2024-05-29T02:57:07Z)
Algorithmic Persuasion Through Simulation [51.23082754429737]
本研究では,受取人に製品購入などの二元的行動を取るよう説得するベイズ説得ゲームについて検討する。送信者は、製品の品質が高いか低いかなどの世界の(バイナリ)状態について通知されるが、受信者の信念やユーティリティに関する情報は限られている。顧客の調査やユーザスタディ、最近のAIの進歩によって動機づけられた私たちは、受信者の振る舞いをシミュレートする託宣をクエリすることで、送信側が受信者についてより深く学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-29T23:01:33Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文参考訳（メタデータ） (2023-08-29T18:18:21Z)
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文参考訳（メタデータ） (2023-07-24T17:50:24Z)
Sequential Information Design: Learning to Persuade in the Dark [49.437419242582884]
本研究では,自己関心の受信者の行動に影響を及ぼそうとする情報発信者が直面する繰り返し情報設計問題について検討する。各ラウンドにおいて、送信者は、シーケンシャル意思決定(SDM)問題におけるランダムイベントの実現を観察する。これは、そのような情報をレシーバーに段階的に開示し、彼らが(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。
論文参考訳（メタデータ） (2022-09-08T17:08:12Z)
Multi-Receiver Online Bayesian Persuasion [51.94795123103707]
本研究では,未知の逆選択型の受信者に対して,送信者が繰り返し対面するオンライン学習フレームワークについて検討する。オフラインモデルの慣習として、外部性やバイナリアクションのないケースに重点を置いています。本稿では,損失関数を有限個に制限したオンライン学習問題に対処する一般的なオンライン降下スキームを提案する。
論文参考訳（メタデータ） (2021-06-11T16:05:31Z)
Learning to Persuade on the Fly: Robustness Against Ignorance [26.915262694667746]
送信側と受信側のストリーム間の繰り返しの説得について検討し、その度に送信側は未知の分布から独立に引き出されたペイオフ関連状態を観測する。送信者は、状態情報を選択的に共有することにより、受信者を説得して送信者の好みに沿った行動を取る。標準モデルとは対照的に、送信側も受信側もその分布を知らないため、送信側はオンザフライで分布を学習しながら説得しなければならない。
論文参考訳（メタデータ） (2021-02-19T21:02:15Z)
BLOB : A Probabilistic Model for Recommendation that Combines Organic and Bandit Signals [12.83118601099289]
提案手法は,推薦品質の評価を改善するために,「オルガニック」信号と「バンディット」信号を組み合わせた確率論的手法を提案する。提案手法は,両手法が最先端の有機的推薦アルゴリズムの価値を上回るか,あるいは一致しているかを,広範囲にわたるシミュレーション研究を用いて検討する。
論文参考訳（メタデータ） (2020-08-28T06:57:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。