論文の概要: DRIP-R: A Benchmark for Decision-Making and Reasoning Under Real-World Policy Ambiguity in the Retail Domain
- arxiv url: http://arxiv.org/abs/2605.07699v1
- Date: Fri, 08 May 2026 13:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.05959
- Title: DRIP-R: A Benchmark for Decision-Making and Reasoning Under Real-World Policy Ambiguity in the Retail Domain
- Title(参考訳): DRIP-R:小売ドメインにおける実世界政策の曖昧さの下での意思決定と推論のためのベンチマーク
- Authors: Hsuvas Borkakoty, Sebastian Pohl, Cheng Wang, Bei Chen, Yufang Hou,
- Abstract要約: DRIPRは、現実の小売政策構築シナリオを利用して、単一の正しい解決方法が存在しないベンチマークである。
DRIPRは、現実的な顧客ペルソナと組み合わせたポリシーの曖昧なリターンシナリオのキュレートされたセットと、完全な対話型シミュレーションツール呼び出し機能、マルチジャッジ評価フレームワークから構成される。
我々の実験は、フロンティアモデルが本質的に同じ方針の曖昧さに異を唱えていることを示し、あいまいさがLLM意思決定に真かつ体系的な課題をもたらすことを確認した。
- 参考スコア(独自算出の注目度): 21.9900052246381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents are increasingly deployed for routine but consequential tasks in real-world domains, where their behavior is governed by inherently ambiguous domain policies that admit multiple valid interpretations. Despite the prevalence of such ambiguities in practice, existing agent benchmarks largely assume unambiguous, well-specified policies, leaving a critical evaluation gap. We introduce DRIP-R, a benchmark that systematically exploits real-world retail policy ambiguities to construct scenarios in which no single correct resolution exists. DRIP-R comprises a curated set of policy-ambiguous return scenarios paired with a realistic customer personas, a full-duplex conversational simulation with tool-calling capabilities and a multi-judge evaluation framework covering policy adherence, dialogue quality, behavioral alignment, and resolution quality. Our experiments show that frontier models fundamentally disagree on identical policy-ambiguous scenarios, confirming that ambiguity poses a genuine and systematic challenge to LLM decision-making.
- Abstract(参考訳): LLMをベースとしたエージェントは、現実のドメインにおいて、日常的だが連続的なタスクにますますデプロイされ、その振る舞いは、複数の有効な解釈を許容する本質的に曖昧なドメインポリシーによって制御される。
実際にこのような曖昧さが流行しているにもかかわらず、既存のエージェントベンチマークは曖昧で明確なポリシーを前提としており、批判的な評価のギャップを残している。
DRIP-Rは、現実の小売政策の曖昧さを体系的に活用し、単一の正しい解決が存在しないシナリオを構築するためのベンチマークである。
DRIP-Rは、現実的な顧客ペルソナと組み合わせたポリシーあいまいなリターンシナリオのキュレートセットと、ツールコール機能を備えたフル二重会話シミュレーションと、ポリシー順守、対話品質、行動アライメント、解決品質を含むマルチジャッジ評価フレームワークから構成される。
我々の実験は、フロンティアモデルが本質的に同一の政策曖昧なシナリオに不一致であることを示し、あいまいさがLLM意思決定に真かつ体系的な課題をもたらすことを確認した。
関連論文リスト
- PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models [56.37206340175191]
大規模言語モデル(LLM)は、現実の意思決定にますます統合されている。
しかし、政策関連のコンテンツについて理解し、理屈を定める能力はいまだ解明されていない。
textbftextitPolicyBenchは、最初の大規模クロスシステムベンチマーク(US-China)であり、ポリシーの理解を評価する。
論文 参考訳(メタデータ) (2026-04-14T17:27:50Z) - Pluralistic Behavior Suite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies [18.428149174461264]
PBSUITEは,多元的アライメント仕様に従うために,大規模言語モデルの能力を評価するために設計された動的評価スイートである。
オープンおよびクローズドソースのLLMは、単一ターン設定における行動ポリシーに頑健に固執するが、そのコンプライアンスはマルチターンの対角的相互作用において著しく弱まる。
論文 参考訳(メタデータ) (2025-11-07T06:43:01Z) - Safe Domain Randomization via Uncertainty-Aware Out-of-Distribution Detection and Policy Adaptation [26.241756408576684]
Uncertainty-Aware RL (UARL) は、ターゲットドメイン内で直接のインタラクションを必要とせず、OOD(Out-Of-Distribution)の検出とポリシー適応に対処することで、トレーニング中の安全性を優先する新しいフレームワークである。
我々は, MuJoCoベンチマークと四足歩行ロボット上でのUARLを評価し, 信頼性の高いOOD検出, 性能向上, ベースラインと比較して試料効率の向上を実証した。
論文 参考訳(メタデータ) (2025-07-08T15:51:57Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning [39.093299601701474]
解釈可能な政策学習は、観察された行動から無知な決定ポリシーを推定しようとする。
既存のアプローチは、基本的な決定プロセスを普遍的なポリシーとして表現するため、このトレードオフによって負担される。
我々は,複雑な意思決定プロセスのモデリング問題をマルチタスク学習問題として再構成する,文脈対応型政策回復(CPR)を開発する。
論文 参考訳(メタデータ) (2023-10-11T22:17:37Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Uncertainty Aware System Identification with Universal Policies [45.44896435487879]
Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。
本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。
次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
論文 参考訳(メタデータ) (2022-02-11T18:27:23Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。