論文の概要: Designing Service Systems from Textual Evidence
- arxiv url: http://arxiv.org/abs/2603.10400v1
- Date: Wed, 11 Mar 2026 04:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.781031
- Title: Designing Service Systems from Textual Evidence
- Title(参考訳): テクスチュアルエビデンスからのサービスシステム設計
- Authors: Ruicheng Ao, Hongyu Chen, Siyang Gao, Hanwei Li, David Simchi-Levi,
- Abstract要約: 高価な人事監査を最小化しながら、信頼性の高い最適なサービス構成を特定する方法について検討する。
本研究では,プロキシスコアと逆確率重み付け残差を組み合わせた推定器を開発した。
- 参考スコア(独自算出の注目度): 18.85883540190321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing service systems requires selecting among alternative configurations -- choosing the best chatbot variant, the optimal routing policy, or the most effective quality control procedure. In many service systems, the primary evidence of performance quality is textual -- customer support transcripts, complaint narratives, compliance review reports -- rather than the scalar measurements assumed by classical optimization methods. Large language models (LLMs) can read such textual evidence and produce standardized quality scores, but these automated judges exhibit systematic biases that vary across alternatives and evaluation instances. Human expert review remains accurate but costly. We study how to identify the best service configuration with high confidence while minimizing expensive human audits, given that automated evaluation is cheap but biased. We formalize this as a sequential decision problem where a biased proxy score is observed for every evaluation, and a verified outcome can be acquired selectively at additional cost. We prove that LLM-only selection fails under arm-dependent bias, and that naive selective-audit estimators can be asymptotically biased. We develop an estimator combining proxy scores with inverse-propensity-weighted residuals and construct anytime-valid confidence sequences. Our algorithm, PP-LUCB, jointly decides which alternatives to evaluate and whether to request human audits, concentrating reviews where the LLM judge is least reliable. We prove correctness and establish instance-dependent cost bounds showing near-optimal efficiency. On a customer support ticket classification task, our algorithm correctly identifies the best model in 40/40 trials while achieving 90\% audit cost reduction.
- Abstract(参考訳): サービスシステムの設計には、最高のチャットボット、最適なルーティングポリシー、最も効果的な品質管理手順を選択するという代替設定を選択する必要がある。多くのサービスシステムでは、古典的な最適化手法によって想定されるスカラー測定よりも、顧客サポートの書き起こし、不満の物語、コンプライアンスレビューレポートなど、パフォーマンス品質の主な証拠がテキストである。
大規模言語モデル(LLM)は、そのようなテキストのエビデンスを読み、標準化された品質スコアを生成することができるが、これらの自動判断は、代替案や評価インスタンスによって異なる体系的なバイアスを示す。
人間の専門家のレビューは正確だが費用がかかる。
自動評価は安価だがバイアスがあるので、高い信頼性で最適なサービス構成を識別する方法について検討する。
我々はこれを、評価毎にバイアス付きプロキシスコアが観測され、さらなるコストで検証結果が選択的に取得されるようなシーケンシャルな決定問題として定式化する。
LLMのみの選択は、腕依存バイアスの下で失敗し、ナイーブな選択的聴覚推定器は漸近的にバイアスを受けることができることを証明した。
本研究では,プロキシスコアと逆確率重み付け残差を組み合わせた推定器を開発した。
我々のアルゴリズムであるPP-LUCBは、LLMの判断が信頼性の低いレビューに集中して、どの代替案を評価するか、人間の監査を要求するかを共同で決定する。
正確性を証明し、最適に近い効率を示すインスタンス依存のコスト境界を確立する。
顧客支援チケット分類タスクでは,40/40の試行において,90%の監査コスト削減を達成しつつ,最適モデルを正しく識別する。
関連論文リスト
- Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - Best Arm Identification with LLM Judges and Limited Human [18.85883540190321]
固定信頼ベストアーム識別(BAI)について検討する。
本研究では,各アームの平均値と逆正当性重み付け残差を結合した平均値の推定器を開発する。
推定器と信頼性シーケンスに基づいて,アームを適応的に選択し,監査するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-29T09:50:34Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Benchmarking Contextual Understanding for In-Car Conversational Systems [0.9437812993238097]
In-car Conversational Question Answering (ConvQA) システムは,シームレスな音声対話を実現することでユーザエクスペリエンスを著しく向上させる。
本稿では,Large Language Models (LLMs) と高度なプロンプト技術およびエージェントベース手法を用いて,ConvQAシステム応答がユーザの発話に適合する程度を評価する。
論文 参考訳(メタデータ) (2025-12-12T21:15:49Z) - Prompt Optimization via Retrieved Reasoning Assets and Multi-Agent Analysis [5.935239028627343]
スコア・アウェア・プロンプト最適化のためのマルチエージェントフレームワークであるMA-SAPOを紹介する。
従来の手法と比較して、MA-SAPOは、体系的な編集を導く構造的推論と評価結果を明示的に結合する。
評価信号を解釈可能な推論連鎖に変換することで、MA-SAPOはより透明で、監査可能で、制御可能な、迅速な改善を生成する。
論文 参考訳(メタデータ) (2025-10-18T20:21:09Z) - Meta-Router: Bridging Gold-standard and Preference-based Evaluations in Large Language Model Routing [15.724480880994259]
大規模言語モデル(LLM)ルータは、クエリ毎に候補のプールから最も適切なモデルを選択する。
クラウドソーシングやLSM-as-a-judgeシステムを通じて収集された嗜好ベースのデータは、より安価でスケーラブルだが、応答の真の品質を反映することにはバイアスが伴うことが多い。
我々は、好みデータバイアスを補正し、2つのデータソース間の不均衡に対処し、ルーティングの堅牢性と効率を改善する統合因果ルータトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-09-29T21:44:00Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。