論文の概要: When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems
- arxiv url: http://arxiv.org/abs/2604.27082v1
- Date: Wed, 29 Apr 2026 18:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.751619
- Title: When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems
- Title(参考訳): LLMが終りを迎えたとき - プロダクションシステムにおける信頼性の高いモデルマイグレーションのためのフレームワーク
- Authors: Emma Casey, David Roberts, David Sim, Ian Beaver,
- Abstract要約: 本稿では,LLM(Large Language Model,大規模言語モデル)をベースとしたシステム移行フレームワークを提案する。
主な貢献は、人的判断に対する自動評価指標を校正するベイズ統計手法である。
本フレームワークは,6つのグローバルリージョンで530万の月次インタラクションを提供する有償質問応答システム上で実証する。
- 参考スコア(独自算出の注目度): 1.609940380983903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for migrating production Large Language Model (LLM) based systems when the underlying model reaches end-of-life or requires replacement. The key contribution is a Bayesian statistical approach that calibrates automated evaluation metrics against human judgments, enabling confident model comparison even with limited manual evaluation data. We demonstrate this framework on a commercial question-answering system serving 5.3M monthly interactions across six global regions; evaluating correctness, refusal behavior, and stylistic adherence to successfully identify suitable replacement models. The framework is broadly applicable to any enterprise deploying LLM-based products, providing a principled, reproducible methodology for model migration that balances quality assurance with evaluation efficiency. This is a capability increasingly essential as the LLM ecosystem continues to evolve rapidly and organizations manage portfolios of AI-powered services across multiple models, regions, and use cases.
- Abstract(参考訳): 本稿では,LLM(Large Language Model,大規模言語モデル)をベースとしたシステム移行フレームワークを提案する。
重要な貢献は、人的判断に対する自動評価指標を校正するベイズ統計手法であり、限られた手動評価データであっても確実なモデル比較を可能にする。
本研究では,6つのグローバル領域にわたる530万件の月次対話を支援する商用質問応答システムについて,その妥当性,拒絶行動,スタイリスティック・アテンデンスを評価し,適切な代替モデルの同定に成功していることを示す。
このフレームワークは、LLMベースの製品をデプロイするどの企業にも広く適用でき、品質保証と評価効率のバランスをとるモデル移行のための原則化された再現可能な方法論を提供する。
LLMエコシステムは急速に進化を続けており、組織は複数のモデル、リージョン、ユースケースにわたるAI駆動サービスのポートフォリオを管理している。
関連論文リスト
- Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。
本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文 参考訳(メタデータ) (2026-02-05T16:30:08Z) - Failure Modes in LLM Systems: A System-Level Taxonomy for Reliable AI Applications [0.0]
大規模言語モデル(LLM)は、意思決定支援ツール、自動化、AI対応ソフトウェアシステムに急速に統合されている。
本稿では,現実のLLMアプリケーションで発生する15の隠れ障害モードのシステムレベルでの分類について述べる。
論文 参考訳(メタデータ) (2025-11-25T05:19:23Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。
LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。
マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-07-17T17:51:53Z) - PCA-Bench: Evaluating Multimodal Large Language Models in
Perception-Cognition-Action Chain [37.448177723993346]
MLLM(Multimodal Large Language Models)の統合能力を評価するベンチマークであるPCA-Benchを提案する。
タスク命令と多様なコンテキストが与えられたモデルでは、パーセプション、認知、アクションを推論チェーンにシームレスに統合する必要がある。
自動評価プロトコルであるPCA-Evalを提案し,10種類のMLLMを評価した。
論文 参考訳(メタデータ) (2024-02-21T07:09:58Z) - CLEVA: Chinese Language Models EVAluation Platform [92.42981537317817]
CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。
当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。
汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。
マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
論文 参考訳(メタデータ) (2023-08-09T09:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。