論文の概要: When Outcome Looks Right But Discipline Fails: Trace-Based Evaluation Under Hidden Competitor State
- arxiv url: http://arxiv.org/abs/2605.18580v1
- Date: Mon, 18 May 2026 15:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.993876
- Title: When Outcome Looks Right But Discipline Fails: Trace-Based Evaluation Under Hidden Competitor State
- Title(参考訳): Outcomeが正しいように見えるがディシプリンは失敗する - 隠れた競合状態下でのトレースベースの評価
- Authors: Peiying Zhu, Sidi Chang,
- Abstract要約: アウトカムのみの評価は経済的に安全でないエージェントを認定することができる。
隠れた競合状態のホテル料金では、学習者はルールベースの収益管理政策の利率規律を保ちつつ、利用可能な部屋当たりのもっともらしい収入を達成することができる。
トレースに基づく評価パラダイムである規律安定性を導入する。
- 参考スコア(独自算出の注目度): 0.39287497907611874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Outcome-only evaluation can certify economically unsafe agents: a policy can hit a business KPI while violating deployable behavioral discipline. In hotel pricing with hidden competitor state, a learner can achieve plausible revenue per available room while failing to preserve the rate discipline of a rule-based revenue-management competitor. We introduce discipline stability, a trace-based evaluation paradigm: define the benchmark behavior, restrict observations to the deployment regime, induce trace diagnostics from failure, separate mechanisms with ablations, and test transfer and deployment. Across a two-hotel benchmark and a compact hidden-budget bidding task, reward-only PPO variants miss trace alignment; revealing hidden state reduces label uncertainty; deterministic copy collapses uncertainty; and trace-prior or corrected history policies better preserve price or bid distributions. Pure behavior cloning is nearly enough for symmetric imitation, while Trace-Prior RL adds bounded adaptation under capacity asymmetry. The contribution is an evaluation and benchmark paradigm, not a new optimizer or a universal claim about MARL
- Abstract(参考訳): アウトカムのみの評価は、経済的に安全でないエージェントを認定することができる: ポリシーは、デプロイ可能な行動規律に違反しながら、ビジネスKPIにヒットする。
隠れた競合状態のホテル価格では、学習者は、ルールベースの収益管理競合の利率規律を保ちつつ、利用可能な部屋当たりの有望な収益を達成することができる。
ベンチマークの動作を定義し、デプロイメント体制に観察を制限し、障害からトレース診断を誘導し、改善を伴う分離メカニズムと、テスト転送とデプロイを分離する。
2段階のベンチマークとコンパクトな隠れ予算入札タスク、報酬のみのPPO変種はトレースアライメントを見逃し、隠れた状態がラベルの不確実性を減らし、決定論的コピーが不確実性を損なう。
純粋な振舞いのクローニングは対称的な模倣には十分である一方、トレース・プリアーRLはキャパシティ非対称性の下で有界適応を加える。
コントリビューションは評価とベンチマークのパラダイムであり、新しいオプティマイザやMARLに関する普遍的なクレームではない。
関連論文リスト
- Decision Support for Marketplace Policies under Incomplete Evidence: From Replay to Launch Readiness [0.5013248430919224]
本稿では,有望な証拠と実効性のある証拠とを区別するDSS(Support-Aware decision- supported system)を提案する。
このフレームワークは、リプレイ、サポート対応のオフポリシー評価(OPE)、保守的な下限ランキング、マルチサイドガードレール、アウトオブタイムバリデーション、感度分析、干渉対応のバリデーション設計を統合している。
フレームワークをiPinYouスタイルのRTBログに適用することで、マージンゲートのフロアポリシーを主要な候補と特定する。
論文 参考訳(メタデータ) (2026-05-13T00:26:50Z) - Market-Alignment Risk in Pricing Agents: Trace Diagnostics and Trace-Prior RL under Hidden Competitor State [0.39287497907611874]
2ホテルの収益管理シミュレータの故障について検討する。
ホテルAは、一定の規則に基づく収益管理競争相手に対してエージェントを訓練する。
論文 参考訳(メタデータ) (2026-05-07T16:31:39Z) - ValueBlindBench: Agreement-Gated Stress Testing of LLM-Judged Investment Rationales Before Returns Are Observable [1.8689252029357564]
本稿では,事前登録された合意付きストレステストプロトコルであるValueBlindBenchを紹介する。
ValueBlindBench は LLM-judged Investment-rationale のクレームがパブリッシュ可能、資格あり、無効かを決定する。
論文 参考訳(メタデータ) (2026-04-28T05:04:20Z) - The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds [1.2183405753834562]
オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
論文 参考訳(メタデータ) (2026-03-06T01:46:02Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - LegalSim: Multi-Agent Simulation of Legal Systems for Discovering Procedural Exploits [0.0]
我々は、AIシステムが符号化ルールにおける手続き的弱点をどのように活用できるかを探求する、敵対的法的手続のモジュラーマルチエージェントシミュレーションであるLegalSimを提案する。
PPO, 文脈的バンディット, LLM, 直接 LLM ポリシ, 手作りの4つのポリシーを比較し, バイナリケースの結果を最適化する代わりに, エージェントを効果的な勝利率を用いて訓練・評価し, 対向コストインフレーション, カレンダー圧力, 低利得の決済圧力, ルール準拠のマージンを組み合わせた複合エクスプロイトスコアを作成した。
論文 参考訳(メタデータ) (2025-10-03T18:01:57Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。