論文の概要: Optimally Auditing Adversarial Agents
- arxiv url: http://arxiv.org/abs/2604.25085v1
- Date: Tue, 28 Apr 2026 00:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.643498
- Title: Optimally Auditing Adversarial Agents
- Title(参考訳): 敵エージェントの最適監査
- Authors: Sanmay Das, Fang-Yi Yu, Yuang Zhang,
- Abstract要約: Fraudは、ソーシャルサービスデリバリやクレジット提供など、多くのリソース割り当てドメインにおいて、課題となる可能性がある。
これを軽減するために、プリンシパルは、クレームと誤報告を検証する戦略的監査を設計できる。
複数のエージェントを持つ主エージェントゲームとして,監査ポリシー設計の一般的なモデルを導入する。
- 参考スコア(独自算出の注目度): 17.659175548417114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fraud can pose a challenge in many resource allocation domains, including social service delivery and credit provision. For example, agents may misreport private information in order to gain benefits or access to credit. To mitigate this, a principal can design strategic audits to verify claims and penalize misreporting. In this paper, we introduce a general model of audit policy design as a principal-agent game with multiple agents, where the principal commits to an audit policy, and agents collectively choose an equilibrium that minimizes the principal's utility. We examine both adaptive and non-adaptive settings, depending on whether the principal's policy can be responsive to the distribution of agent reports. Our work provides efficient algorithms for computing optimal audit policies in both settings and extends these results to a setting with limited audit budgets.
- Abstract(参考訳): Fraudは、ソーシャルサービスデリバリやクレジット提供など、多くのリソース割り当てドメインにおいて、課題となる可能性がある。
例えば、エージェントは、利益を得るために個人情報を誤って報告したり、クレジットにアクセスしたりすることができる。
これを軽減するために、プリンシパルは、クレームを検証し、誤報告を罰する戦略的監査を設計することができる。
本稿では,複数のエージェントによる監査ポリシー設計の一般的なモデルを紹介し,そのエージェントが監査ポリシーにコミットし,エージェントがプライマリの効用を最小限に抑える平衡を選択する。
本研究は, エージェントレポートの配信に対して, プリンシパルのポリシーが応答するかどうかによって, 適応的および非適応的設定について検討する。
本研究は,最適監査ポリシーを両設定で計算するための効率的なアルゴリズムを提供し,監査予算を限定した設定まで拡張する。
関連論文リスト
- Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。
この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。
我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文 参考訳(メタデータ) (2025-06-10T04:25:04Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Unpacking the Black Box: Regulating Algorithmic Decisions [1.283555556182245]
本稿では,貸付,医療検査,雇用などの高額なアプリケーションで使用される「ブラックボックス」アルゴリズムの監視モデルを提案する。
複雑なアルゴリズムを許すことは、福祉を改善することができるが、その利益は規制当局の規制方法に依存する。
論文 参考訳(メタデータ) (2021-10-05T23:20:25Z) - Consequences of Misaligned AI [12.879600368339393]
本稿では,報酬関数の設計をインタラクティブでダイナミックなプロセスとみなすべきである。
セットアップを変更して、完全な状態を参照したり、プリンシパルがプロキシの目的を時間とともに更新したりすることで、より高いユーティリティソリューションを実現する方法を示します。
論文 参考訳(メタデータ) (2021-02-07T19:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。