論文の概要: Luna-2: Scalable Single-Token Evaluation with Small Language Models
- arxiv url: http://arxiv.org/abs/2602.18583v1
- Date: Fri, 20 Feb 2026 19:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.175363
- Title: Luna-2: Scalable Single-Token Evaluation with Small Language Models
- Title(参考訳): Luna-2:小さな言語モデルによるスケーラブルなシングルトークン評価
- Authors: Vatsal Goel, Rishon Dsouza, Nikhil Ega, Amey Ramesh Rambatla, Rob Friel, Shuai Shao, Yash Sheth,
- Abstract要約: リアルタイムガードレールは正確で安価で高速な評価を必要とする。
今日のデフォルトの LLM-as-a-judge (LLMAJ) は遅く、高価で、運用上非決定論的である。
本稿では,デコーダのみの小型言語モデル(SLM)を決定論的評価モデルに活用する新しいアーキテクチャであるLuna-2を提案する。
- 参考スコア(独自算出の注目度): 2.256035939593399
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time guardrails require evaluation that is accurate, cheap, and fast - yet today's default, LLM-as-a-judge (LLMAJ), is slow, expensive, and operationally non-deterministic due to multi-token generation. We present Luna-2, a novel architecture that leverages decoder-only small language models (SLMs) into a deterministic evaluation model to reliably compute complex task-specific LLMAJ metrics (e.g. toxicity, hallucination, tool selection quality, etc.) at an accuracy at par or higher than LLMAJ using frontier LLMs while drastically reducing the cost and latency of computation. Each metric is implemented as a lightweight LoRA/PEFT head on top of a shared SLM backbone, enabling hundreds of specialized metrics to run concurrently on a single GPU, deployable locally next to AI systems in a privacy-preserving and latency optimizing manner. Across content safety and hallucination benchmarks, Luna-2 matches the accuracy of state-of-the-art LLM-based evaluators while reducing inference cost by over 80x and latency by over 20x. In this paper, we outline the model architecture, training methodology and report real-world empirical results on accuracy, latency, and throughput results. In production, Luna-2 is protecting 100M+ AI sessions and processing over 100B tokens per month for our customers with eval cost savings of over $30M annually.
- Abstract(参考訳): リアルタイムガードレールは正確で安価で高速な評価を必要とするが、今日のデフォルトのLLMAJ(LLM-as-a-judge)は遅く、高価で、マルチトークン世代のために運用的に非決定論的である。
本稿では,デコーダのみの小型言語モデル(SLM)を決定論的評価モデルに活用し,計算のコストとレイテンシを大幅に低減しつつ,LLMAJよりも高い精度で,複雑なタスク固有のLLMAJメトリクス(例えば毒性,幻覚,ツール選択品質など)を高い精度で確実に計算する,新しいアーキテクチャであるLuna-2を提案する。
各メトリックは、共有SLMバックボーン上に軽量のLoRA/PEFTヘッドとして実装されており、数百の特別なメトリクスを単一のGPU上で並列に実行し、プライバシ保存とレイテンシ最適化の方法でAIシステムにローカルにデプロイすることができる。
コンテンツの安全性と幻覚ベンチマーク全体にわたって、Luna-2は最先端のLCMベースの評価器の精度と、推論コストを80倍、レイテンシを20倍に削減する。
本稿では,モデルアーキテクチャの概要,トレーニング手法,および実世界の実験結果について,精度,レイテンシ,スループットについて概説する。
実運用では、Luna-2は1億以上のAIセッションを保護し、年間3000万ドル以上のevalコストの節約で、月に100億以上のトークンを処理しています。
関連論文リスト
- Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference [7.865726406769634]
小型言語モデル(SLM)は劇的なコスト削減を提供するが、精度はかなり遅い。
LLM Shepherdingは,LLMから短いプレフィックス(ヒント)のみを要求するフレームワークで,SLMに提供します。
シェパードはルーティングとカスケードの両方を一般化し、オラクルの意思決定において低コストを実現する。
論文 参考訳(メタデータ) (2026-01-29T18:52:54Z) - LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation [0.7933039558471408]
我々は,複雑な解析的および数学的推論タスクに,文脈的理解が不要であることに対処する。
既存のベンチマークデータセットは、動的な環境、変数、不均一な制約でそのような問題の複雑さに対処できない。
NL4RAは、LP、ILP、MILPとして定式化された50のリソース割り当て最適化問題からなるキュレートデータセットである。
次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-11-13T23:19:43Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。