論文の概要: Semantic Agreement Enables Efficient Open-Ended LLM Cascades
- arxiv url: http://arxiv.org/abs/2509.21837v1
- Date: Fri, 26 Sep 2025 03:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.165013
- Title: Semantic Agreement Enables Efficient Open-Ended LLM Cascades
- Title(参考訳): セマンティック・アグリーメントは、効率的なオープンエンディング LLM カスケードを可能にする
- Authors: Duncan Soiffer, Steven Kolawole, Virginia Smith,
- Abstract要約: カスケードシステムは、可能な限り小さなモデルに計算要求をルーティングし、必要な時にのみ大きなモデルに遅延する。
我々は,信頼度の高い推論のための訓練自由信号として意味的合意を提案する。
セマンティックカスケードは、40%のコストでターゲットモデル品質に適合または超過し、最大60%のレイテンシを削減している。
- 参考スコア(独自算出の注目度): 18.119677655287607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cascade systems route computational requests to smaller models when possible and defer to larger models only when necessary, offering a promising approach to balance cost and quality in LLM deployment. However, they face a fundamental challenge in open-ended text generation: determining output reliability when generation quality lies on a continuous spectrum, often with multiple valid responses. To address this, we propose semantic agreement -- meaning-level consensus between ensemble outputs -- as a training-free signal for reliable deferral. We show that when diverse model outputs agree semantically, their consensus is a stronger reliability signal than token-level confidence. Evaluated from 500M to 70B-parameter models, we find that semantic cascades match or surpass target-model quality at 40% of the cost and reduce latency by up to 60%. Our method requires no model internals, works across black-box APIs, and remains robust to model updates, making it a practical baseline for real-world LLM deployment.
- Abstract(参考訳): カスケードシステムは、可能な限り小さなモデルに計算要求をルーティングし、必要な時にのみ大きなモデルに遅延し、LCMデプロイメントにおけるコストと品質のバランスをとるための有望なアプローチを提供する。
しかし、それらはオープンエンドテキスト生成において根本的な課題に直面している: 生成品質が連続的なスペクトル上にある場合、しばしば複数の有効な応答を持つ出力の信頼性を決定する。
これを解決するために、信頼度の高い推論のための訓練自由信号として意味論的合意(アンサンブル出力間の意味レベルのコンセンサス)を提案する。
多様なモデル出力が意味論的に一致する場合、それらのコンセンサスはトークンレベルの信頼性よりも強い信頼性信号であることを示す。
5Mから70Bパラメータモデルに評価したところ、セマンティックカスケードは40%のコストでターゲットモデルの品質に適合し、最大60%の遅延を低減できることがわかった。
我々の手法はモデル内部を必要とせず、ブラックボックスAPIにまたがって動作し、モデル更新に頑健であり、現実のLLMデプロイメントの実践的なベースラインとなる。
関連論文リスト
- Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - MEL: Multi-level Ensemble Learning for Resource-Constrained Environments [1.59297928921015]
我々は、弾力性のあるエッジ推論のための新しいフレームワーク、Mel(Multi-Level Ensemble Learning)を提案する。
MELは、複数のサーバが利用可能で、独立して障害下で、協調動作可能な複数の軽量バックアップモデルをトレーニングする。
視覚、言語、オーディオデータセットにわたる経験的評価は、MELが元のアーキテクチャに匹敵するパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2025-06-25T02:33:57Z) - SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。
ベイズ最適化を用いた信頼しきい値の選択と比較すると、マルコフパラメトリックコプラモデルの方がエラーコストのトレードオフに有利である。
異なるLLMの誤差率間の相互作用に関する我々のフレームワークの帰納的仮定は、サンプル効率を高める。
論文 参考訳(メタデータ) (2025-01-16T07:58:33Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。