論文の概要: Not only a helper, but also a teacher: Interactive LLM Cascade
- arxiv url: http://arxiv.org/abs/2509.22984v1
- Date: Fri, 26 Sep 2025 22:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.965764
- Title: Not only a helper, but also a teacher: Interactive LLM Cascade
- Title(参考訳): 支援者だけでなく教師でもある:インタラクティブLLMカスケード
- Authors: Yu Wu, Shuo Wu, Ye Tao, Yansong Li, Anand D. Sarwate,
- Abstract要約: 大きな言語モデル(LLM)はその能力で大きく異なり、より大きなモデルは性能が良く、コストも高い。
LLMs Cascadeは弱い/チープから強い/拡張的なモデルへの難しいクエリをデファクトする。
Inter-Cascadeは、バックアップヘルパーから長期の教師まで、強力なモデルの役割を拡大します。
- 参考スコア(独自算出の注目度): 10.510796354302421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) vary widely in their capabilities, with larger models often having better performance but higher cost: choosing an LLM model often involves trading off performance and cost. The LLM Cascade is a paradigm that defers difficult queries from weak/cheap to strong/expensive models. This approach is nonadaptive: the deferral decision is trained offline. When confronted with similar or repeated queries, the LLM Cascade may then repeatedly consult the expensive model and incur higher cost. To improve the cascading efficiency, we propose Inter-Cascade, an online and interactive LLM Cascade that extends the role of strong model from a backup helper to a long-term teacher. In our system, when a strong model resolves a difficult query, it also distills its solution into a generalized, reusable problem-solving strategy that boosts the weak model on subsequent queries. Adding strategies to queries enables the weak model to dynamically improve its performance over time, avoiding computationally and time-intensive fine-tuning. Empirically, compared with standard LLM Cascade baselines across multiple benchmarks, the Inter-Cascade significantly improves the accuracy of the weak model (by up to 33.06 absolute percentage points) and the overall system (by up to 5.53 absolute percentage points), while reducing the calls to strong models (by up to 48.05% relative reduction) and saving the corresponding fees (by up to 49.63% relative reduction). Inter-Cascade demonstrates the effective in-context knowledge transfer between LLMs, and provides a general, scalable framework applicable to both open-source and API-based LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)はその能力において大きく異なり、より大きなモデルはより優れたパフォーマンスを持つことが多いが、よりコストが高い: LLMモデルを選択するには、しばしばパフォーマンスとコストのトレードオフを伴う。
LLMカスケード(LLM Cascade)は、弱い/チープから強い/拡張的なモデルへの難しいクエリをデファクトするパラダイムである。
このアプローチは非適応的であり、遅延決定はオフラインでトレーニングされる。
類似または繰り返しクエリに直面すると、LSMカスケードは高価なモデルを繰り返し検討し、より高いコストを発生させる。
カスケードは,支援者から長期教師まで,強力なモデルの役割を拡大するオンラインかつインタラクティブなLLMカスケードである。
我々のシステムでは、強いモデルが難しいクエリを解決した場合、その解を一般化された再利用可能な問題解決戦略に抽出し、その後のクエリの弱いモデルを強化する。
クエリに戦略を追加することで、弱いモデルは時間とともに動的にパフォーマンスを改善することができ、計算的かつ時間集約的な微調整を避けることができる。
実証的には、複数のベンチマークで標準のLCMカスケードベースラインと比較して、インターカスケードは弱いモデル(最大33.06絶対パーセンテージポイント)と全体システム(最大5.53絶対パーセンテージポイント)の精度を大幅に改善し、強いモデルへの呼び出しを減少させ(最大48.05%の相対リミット)、対応する手数料(最大49.63%の相対リミット)を節約した。
Inter-Cascadeは、LLM間の効果的なコンテキスト内知識伝達を実証し、オープンソースとAPIベースのLLMの両方に適用可能な、汎用的でスケーラブルなフレームワークを提供する。
関連論文リスト
- Cost-Optimal Grouped-Query Attention for Long-Context Modeling [45.981681856747365]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Cost-Saving LLM Cascades with Early Abstention [1.3108652488669732]
LLMカスケードにおける「早期禁忌」の利点について検討した。
6つのベンチマークで,テスト全体の損失を平均2.2%削減できることがわかった。
これらの利得は、より効果的な禁制の使用、総禁制率の4.1%の平均的な増加、コストの13.0%の削減、エラー率の5.0%の削減によって生じる。
論文 参考訳(メタデータ) (2025-02-13T08:08:39Z) - Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。
ベイズ最適化を用いた信頼しきい値の選択と比較すると、マルコフパラメトリックコプラモデルの方がエラーコストのトレードオフに有利である。
異なるLLMの誤差率間の相互作用に関する我々のフレームワークの帰納的仮定は、サンプル効率を高める。
論文 参考訳(メタデータ) (2025-01-16T07:58:33Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Online Cascade Learning for Efficient Inference over Streams [9.516197133796437]
大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つ。
この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。
我々は,オンラインでカスケードを学習するタスクを模倣学習問題として定式化する。
論文 参考訳(メタデータ) (2024-02-07T01:46:50Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。