論文の概要: Hierarchical Online Prompt Mutation with Dual-Loop Feedback for Guardrailed Evidence Document Generation: A Production-Evaluation Case Study
- arxiv url: http://arxiv.org/abs/2606.01472v1
- Date: Sun, 31 May 2026 22:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.722242
- Title: Hierarchical Online Prompt Mutation with Dual-Loop Feedback for Guardrailed Evidence Document Generation: A Production-Evaluation Case Study
- Title(参考訳): ガードレールを用いた証拠文書生成のためのデュアルループフィードバックを用いた階層的オンラインプロンプト変異:生産・評価事例
- Authors: Nataraj Agaram Sundar Tejas Morabia,
- Abstract要約: HOPMは階層的なオンラインプロンプト突然変異フレームワークである。
本論文は、制御設定、サンプルサイズ、信頼区間、ペアテスト、プロンプトトークンカテゴリ、擬似コード、スキーマ、ルーリック、ガードレール分類、構築された例を含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-stakes production document-generation systems require language models to be adaptive, evidence-grounded, and auditable. We present HOPM, a hierarchical online prompt mutation framework evaluated on a real marketplace dispute-evidence workflow. HOPM treats prompts as online policies: a family/version router selects a prompt, deterministic guardrails attribute failures to mutable prompt-token categories, and dual feedback from human review and an automated judge updates both routing and mutation priorities. The primary evidence is an observed matched production-evaluation ablation: seven variants are evaluated on the same 600 cases each, enabling component comparisons against static prompting, manual iteration, bandit-only routing, mutation-only adaptation, human-only feedback, auto-judge-only feedback, and full dual-loop HOPM. Full HOPM improves count win rate over a static control from 34.7% to 45.7% (+11.0 pp; paired McNemar p = 1.31e-11) and amount-weighted win rate from 22.3% to 41.4% (+19.1 pp; 95% paired bootstrap CI [10.3, 28.9] pp). It also increases mean Likert quality from 3.18 to 4.40 and reduces issue-flag rate from 15.3% to 5.2%. Supporting review artifacts cover 770 generated-text reviews, 318 labeled reviewer exports, a 10-case/61-rating calibration slice, and a 70-case/350-rating OCR benchmark; these artifacts calibrate rubric, guardrail, title-risk, and OCR-risk interpretation rather than substituting for the production ablation. The paper includes control setup, sample sizes, confidence intervals, paired tests, prompt-token categories, pseudocode, schema, rubric, guardrail taxonomy, and a constructed example so the evaluation structure can be reproduced without exposing proprietary evidence.
- Abstract(参考訳): 高収量生産の文書生成システムでは、言語モデルに適応性、エビデンス・グラウンド化、監査性が必要です。
HOPMは階層的なオンラインプロンプト突然変異フレームワークである。
HOPMはプロンプトをオンラインポリシーとして扱う: ファミリー/バージョンルータはプロンプト、決定論的ガードレールの属性障害を変更可能なプロンプトトーケンカテゴリに選択し、ヒューマンレビューからの二重フィードバックと自動判断器はルーティングと突然変異の優先順位の両方を更新する。
7つの変種がそれぞれ同じ600のケースで評価され、静的なプロンプト、手動反復、バンドイットのみのルーティング、突然変異のみの適応、人間のみのフィードバック、自動ジャッジのみのフィードバック、完全なデュアルループHOPMに対するコンポーネント比較が可能である。
フルHOPMは、34.7%から45.7%(+11.0pp、ペアのマクネマールp = 1.31e-11)、および量重み付き勝利率22.3%から41.4%(+19.1pp、95%のペアのブートストラップCI[10.3, 28.9]pp)に改善されている。
また、平均的なクオリティを3.18から4.40に引き上げ、発行フラッグレートを15.3%から5.2%に下げる。
レビューアーティファクトのサポートには、770の生成されたテキストレビュー、318のラベル付きレビュアーエクスポート、10ケース/61レートのキャリブレーションスライス、70ケース/350レートのOCRベンチマークが含まれており、これらのアーティファクトは生産アブレーションの代用ではなく、ルーブリック、ガードレール、タイトルリスク、OCRリスクの解釈を校正する。
本論文は, 制御設定, サンプルサイズ, 信頼区間, ペアテスト, プロンプトトーケンカテゴリ, 擬似コード, スキーマ, ルーリック, ガードレール分類, 構成例を含む。
関連論文リスト
- Compliance-Scored Best-of-N Guardrail Orchestration for Multimodal Document Generation in Payments Dispute Defense [0.0]
企業文書の大量生成には、財務紛争の物語、コンプライアンス通知、監査要約が含まれる。
統一されたガードレール層の前に、プロダクションシステムはしばしば別々のPIIリアクション、コンテンツモデレーション、フォーマット検証ステップを縫い合わせていた。
本稿では,テキストと画像入力のためのガードレールオーケストレーションレイヤを提案する。
論文 参考訳(メタデータ) (2026-06-01T00:24:30Z) - Step-wise Rubric Rewards for LLM Reasoning [72.17879367869503]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論を改善するために広く使われている。
正しい回答の18.2%は間違っているが、肯定的な報酬がある。
6つの数学的推論ベンチマークで、SRaRはRaRの平均精度を3.57ポイント改善した。
論文 参考訳(メタデータ) (2026-05-17T07:08:14Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback [1.2362187555287152]
ファイナンスにおける予測評価は、ポイント予測エラーに基づく集計精度測定と予測精度テストに依存している。
本稿では,中間決定プロセス自体を評価することによって,精度試験を補完する行動予測評価手法を提案する。
論文 参考訳(メタデータ) (2026-05-07T06:31:34Z) - AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair [21.974153439592317]
AuditBenchは576,000の登録細胞(96,000が実行)のペア実行トレースコーパスである
宣言された可観測性境界内で評価器-チャネル遮断ランキングの不安定を運用する。
80ケースのソースレベルのチャネルサージェリーサブセット上で、メカニズムアンカレートによる検証がサポートされている。
論文 参考訳(メタデータ) (2026-05-06T08:12:09Z) - AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking [13.891522069967507]
本稿では,エージェント実行を指向非巡回グラフ(DAG)として形式化するフレームワークであるAgentEvalを提案する。
AgentEvalは、エンドツーエンドの評価よりも2.17倍高いエラー検出リコールを実現し、72%の根本原因精度を81%の天井に対して達成している。
論文 参考訳(メタデータ) (2026-04-26T07:38:47Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation [43.148402136307716]
異種ASRシステム間のクロスモデル不一致は、基準のない不確実性信号として機能する。
商用APIとオープンソースエンジンにまたがる8つのASRシステムを備えた,50の公開医療用オーディオクリップを転写した。
低アグリメント領域は内容の不一致に富み、高リスク質量のクインタイル全体では53.9%から73.9%に増加した。
論文 参考訳(メタデータ) (2026-03-02T13:02:13Z) - Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation [66.7752700084159]
外科的トレーナーからの高品質なフィードバックは,訓練者のパフォーマンス向上と長期的スキル獲得に不可欠である。
本稿では,実際の訓練者-訓練者間の文書から外科的行動オントロジーを学習する構造対応パイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-19T06:19:34Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。