論文の概要: Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2603.03752v1
- Date: Wed, 04 Mar 2026 05:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.193265
- Title: Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning
- Title(参考訳): コスト効率の良い推論のための信頼度校正型小言語モデルコラボレーション
- Authors: Chuang Zhang, Zizhen Zhu, Yihao Wei, Bing Tian, Junyi Liu, Henan Wang, Xavier Wang, Yaxiao Liu,
- Abstract要約: 大規模言語モデル(LLM)は、小型言語モデル(SLM)と比較して優れた推論能力を示している。
我々は,複雑な推論タスクにおける精度とコストのバランスをとるために,コラボレーティブ・リアソナー(COREA)を提案する。
- 参考スコア(独自算出の注目度): 9.317710715121793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate superior reasoning capabilities compared to small language models (SLMs), but incur substantially higher costs. We propose COllaborative REAsoner (COREA), a system that cascades an SLM with an LLM to achieve a balance between accuracy and cost in complex reasoning tasks. COREA first attempts to answer questions using the SLM, which outputs both an answer and a verbalized confidence score. Questions with confidence below a predefined threshold are deferred to the LLM for more accurate resolution. We introduce a reinforcement learning-based training algorithm that aligns the SLM's confidence through an additional confidence calibration reward. Extensive experiments demonstrate that our method jointly improves the SLM's reasoning ability and confidence calibration across diverse datasets and model backbones. Compared to using the LLM alone, COREA reduces cost by 21.5% and 16.8% on out-of-domain math and non-math datasets, respectively, with only an absolute pass@1 drop within 2%.
- Abstract(参考訳): 大規模言語モデル (LLM) は小言語モデル (SLM) よりも優れた推論能力を示すが、かなり高いコストがかかる。
複雑な推論タスクにおける精度とコストのバランスを達成するために,SLM を LLM でカスケードするシステムである COllaborative REAsoner (COREA) を提案する。
COREA はまず SLM を用いて質問に答えようとする。
事前定義されたしきい値以下で信頼性のある質問は、より正確な解決のために LLM に延期される。
本稿では,SLMの信頼度を補正する強化学習に基づくトレーニングアルゴリズムを提案する。
大規模な実験により,本手法は多様なデータセットとモデルバックボーン間のSLMの推論能力と信頼性校正を共同で改善することが示された。
LLM単独での使用と比較して、COREAはドメイン外の計算と非マスデータセットでそれぞれ21.5%と16.8%のコストを削減し、絶対パス@1の減少は2%以内である。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference [7.865726406769634]
小型言語モデル(SLM)は劇的なコスト削減を提供するが、精度はかなり遅い。
LLM Shepherdingは,LLMから短いプレフィックス(ヒント)のみを要求するフレームワークで,SLMに提供します。
シェパードはルーティングとカスケードの両方を一般化し、オラクルの意思決定において低コストを実現する。
論文 参考訳(メタデータ) (2026-01-29T18:52:54Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - LLM-Powered Preference Elicitation in Combinatorial Assignment [17.367432304040662]
提案手法は,大規模言語モデル(LLM)を人為的プロキシとして活用し,課題における選好選択(PE)を簡素化するものである。
本稿では,SOTA ML を用いた嗜好推論方式と併用して動作する LLM プロキシのフレームワークを提案する。
コース割当て領域における人間の問合せに対するLLMプロキシの有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-02-14T17:12:20Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。