論文の概要: Belief-Guided Inference Control for Large Language Model Services via Verifiable Observations
- arxiv url: http://arxiv.org/abs/2604.27536v1
- Date: Thu, 30 Apr 2026 07:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.972589
- Title: Belief-Guided Inference Control for Large Language Model Services via Verifiable Observations
- Title(参考訳): 検証観測による大規模言語モデルサービスの信頼誘導推論制御
- Authors: Wenhao Yuan, Chenchen Lin, Jian Chen, Jinfeng Xu, Shuo Yang, Edith Cheuk Han Ngai,
- Abstract要約: textscVeroicは、ブラックボックス大言語モデル(LLM)設定における適応推論制御のためのフレームワークである。
textscVeroicは、品質コストのトレードオフの改善、リスク推定とキャリブレーションの強化、競争ベースラインよりも堅牢なロングホライゾン推論制御を実現している。
- 参考スコア(独自算出の注目度): 9.100664015233678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In black-box large language model (LLM) services, response reliability is often only partially observable at decision time, while stronger inference pathways incur substantial computational cost, inducing a budgeted sequential decision problem: for each request, the system should decide whether the default low-cost response is sufficiently reliable or whether additional computation should be allocated to improve response quality. In this paper, we propose \textbf{Ver}ifiable \textbf{O}bservations for Risk-aware \textbf{I}nference \textbf{C}ontrol (\textsc{Veroic}), a framework for adaptive inference control in black-box LLM settings, which formulates request-time control as a \textit{partially observable Markov decision process} to capture partial observability and sequential budget coupling. It constructs a lightweight verifiable observation channel from the input-output pair by aggregating heterogeneous quality signals into a belief state over latent response reliability, which is then used by a budget-aware policy to decide whether to return the default output or trigger a higher-cost inference pathway. Experiments on diverse tasks show that \textsc{Veroic} achieves improved quality-cost trade-offs, stronger risk estimation and calibration, and more robust long-horizon inference control than competitive baselines.
- Abstract(参考訳): ブラックボックスの大規模言語モデル(LLM)サービスでは、応答信頼性は決定時に部分的にしか観測できないことが多いが、より強力な推論経路は、予算のかかる逐次決定問題を誘発する。
本稿では、ブラックボックスLCM設定における適応型推論制御のためのフレームワークである、リスク認識型 \textbf{I}nference \textbf{C}ontrol (\textsc{Veroic}) のための \textbf{Ver} possible \textbf{O}bservations を提案する。
不均一な品質信号を遅延応答信頼性以上の信念状態に集約し、入力出力対から軽量な検証可能な観測チャネルを構築し、予算対応ポリシーでデフォルト出力を返すか、高コストの推論経路をトリガーするかを決定する。
多様なタスクの実験により、 textsc{Veroic} は、競争ベースラインよりも優れた品質とコストのトレードオフ、より強いリスク推定とキャリブレーション、より堅牢なロングホライゾン推論制御を実現している。
関連論文リスト
- Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - AdaGReS:Adaptive Greedy Context Selection via Redundancy-Aware Scoring for Token-Budgeted RAG [4.69377227249912]
本稿ではトークン予算RAGのための冗長性を考慮したコンテキスト選択フレームワークであるAdaGReSを紹介する。
AdaGReSは、目的から派生した限界ゲインを用いてトークン予算制約の下で欲求選択を行う。
オープンドメイン質問応答(Natural Questions)と高冗長バイオメディカル(ドラッグ)コーパスの実験は、冗長性制御とコンテキスト品質の一貫性を実証している。
論文 参考訳(メタデータ) (2025-12-31T18:48:07Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。