論文の概要: PolicyPad: Collaborative Prototyping of LLM Policies
- arxiv url: http://arxiv.org/abs/2509.19680v1
- Date: Wed, 24 Sep 2025 01:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.655689
- Title: PolicyPad: Collaborative Prototyping of LLM Policies
- Title(参考訳): PolicyPad: LLMポリシーの協調プロトタイプ
- Authors: K. J. Kevin Feng, Tzu-Sheng Kuo, Quan Ze, Chen, Inyoung Cheong, Kenneth Holstein, Amy X. Zhang,
- Abstract要約: LLMポリシープロトタイピングの新たな実践を促進する対話型システムであるPolicyPadを提案する。
PolicyPadを使用することで、ポリシーデザイナは、ポリシーインフォームドモデル動作を独立してテストしながら、ポリシーのドラフトをリアルタイムで作成することが可能になる。
我々は、精神保健と法学の専門家22名の8つのグループからなるワークショップを通じてポリシーパッドを評価し、ポリシーパッドがポリシーデザインにおける協調的ダイナミクスを向上することを発見した。
- 参考スコア(独自算出の注目度): 34.578228683172426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs gain adoption in high-stakes domains like mental health, domain experts are increasingly consulted to provide input into policies governing their behavior. From an observation of 19 policymaking workshops with 9 experts over 15 weeks, we identified opportunities to better support rapid experimentation, feedback, and iteration for collaborative policy design processes. We present PolicyPad, an interactive system that facilitates the emerging practice of LLM policy prototyping by drawing from established UX prototyping practices, including heuristic evaluation and storyboarding. Using PolicyPad, policy designers can collaborate on drafting a policy in real time while independently testing policy-informed model behavior with usage scenarios. We evaluate PolicyPad through workshops with 8 groups of 22 domain experts in mental health and law, finding that PolicyPad enhanced collaborative dynamics during policy design, enabled tight feedback loops, and led to novel policy contributions. Overall, our work paves participatory paths for advancing AI alignment and safety.
- Abstract(参考訳): LLMがメンタルヘルスのような高度な領域で採用されるにつれて、ドメインの専門家は、彼らの行動を管理するポリシーへのインプットを提供するために、ますます相談を受けています。
15週間にわたって9人の専門家による19の政策立案ワークショップの観察から、協力的な政策設計プロセスのための迅速な実験、フィードバック、イテレーションを支援する機会を特定しました。
本稿では、ヒューリスティックな評価やストーリーボードなど、確立したUXプロトタイピングの実践を引き出すことにより、LCMポリシープロトタイピングの新たな実践を促進するインタラクティブなシステムであるPhysagePadを提案する。
PolicyPadを使用すると、ポリシーデザイナはポリシーのドラフトをリアルタイムで作成すると同時に、ポリシにインフォームドされたモデル動作と使用シナリオを独立してテストすることが可能になる。
精神保健と法学の専門家22名からなる8つのグループからなるワークショップを通じて、ポリシーパッドの評価を行い、ポリシーパッドはポリシー設計における協調的ダイナミクスを強化し、緊密なフィードバックループを可能にし、新しいポリシーコントリビューションにつながった。
全体として、私たちの仕事はAIのアライメントと安全性を向上するための参加パスを舗装しています。
関連論文リスト
- FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Simulation-Free Hierarchical Latent Policy Planning for Proactive Dialogues [31.92843134331582]
本稿では,新たな対話政策計画フレームワークLDPPを紹介する。
対話記録のマイニングポリシから学習ポリシ計画まで,プロセスを完全に自動化する。
実験により,LDPPは2つの前向きシナリオにおいて既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-19T07:06:01Z) - Policy Learning with Competing Agents [2.972870935419738]
意思決定者は、しばしば、治療できるエージェントの数に制限された能力の下で、治療の割り当てポリシーを学ぶことを目指している。
本稿では,そのような干渉が存在する場合のキャパシティ制約された処理課題について検討する。
論文 参考訳(メタデータ) (2022-04-04T23:15:00Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Active Offline Policy Selection [19.18251239758809]
本稿では,ログデータの多いドメインにおけるポリシ選択の問題に対処するが,インタラクション予算が非常に制限されている。
ログデータのみを用いてポリシーの価値を評価するために、いくつかのオフ・ポリティクス・アセスメント(OPE)技術が提案されている。
本稿では、ログデータとオンラインインタラクションの制限を組み合わさって、最適なポリシーを識別する、新しい緊急オフラインポリシー選択問題の定式化を導入する。
論文 参考訳(メタデータ) (2021-06-18T17:33:13Z) - Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文 参考訳(メタデータ) (2020-04-21T03:13:44Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。