論文の概要: SOMA: Efficient Multi-turn LLM Serving via Small Language Model
- arxiv url: http://arxiv.org/abs/2605.11317v1
- Date: Mon, 11 May 2026 23:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.471258
- Title: SOMA: Efficient Multi-turn LLM Serving via Small Language Model
- Title(参考訳): SOMA: 小型言語モデルによる効率的なマルチターンLDMの実現
- Authors: Xueqi Cheng, Qiong Wu, Zhengyi Zhou, Xugui Zhou, Tyler Derr, Yushun Dong,
- Abstract要約: 大規模言語モデル(LLM)は、多ターン対話設定にますます多くデプロイされている。
本稿では,セッションの初期回転を利用して局所応答多様体を推定するフレームワークを提案する。
採掘された試料を局所的なLoRA微調整に蒸留し, シュロゲートは推論時にプロンプトを伴わずに動作させる。
- 参考スコア(独自算出の注目度): 64.50946708641608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in multi-turn dialogue settings where preserving conversational context across turns is essential. A standard serving practice concatenates the full dialogue history at every turn, which reliably maintains coherence but incurs substantial cost in latency, memory, and API expenditure, especially when queries are routed to large proprietary models. Existing approaches often struggle to balance the trade-off between response quality and efficiency. We propose a framework that exploits the early turns of a session to estimate a local response manifold and then adapt a smaller surrogate model to this local region for the remainder of the conversation. Concretely, we learn soft prompts that maximize semantic divergence between the large and surrogate small language models' responses to surface least-aligned local directions, stabilize training with anti-degeneration control, and distill the mined cases into localized LoRA fine-tuning so the surrogate runs without prompts at inference. A simple gate enables a one-time switch with rollback on drift. We further provide a theoretical analysis for key components in SOMA. Extensive experiments show the effectiveness of SOMA. The source code is provided at: https://github.com/LabRAI/SOMA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ターン間の会話コンテキストを保存することが不可欠であるマルチターン対話設定において、ますます多くデプロイされている。
標準サービスプラクティスは、すべてのターンで完全な対話履歴を結合し、コヒーレンスを確実に維持するが、特にクエリが大規模プロプライエタリなモデルにルーティングされる場合、レイテンシ、メモリ、API支出にかなりのコストがかかる。
既存のアプローチは、応答品質と効率のトレードオフのバランスをとるのに苦労することが多い。
本稿では,セッションの初期回転を利用して局所応答多様体を推定し,この局所領域に小さな代理モデルを適用するフレームワークを提案する。
具体的には,小言語モデルと小言語モデルとのセマンティックな相違を最大化するソフトプロンプトを学習し,局所的なLoRA微調整を行なわずにシュロゲートを動作させる。
シンプルなゲートは、ドリフト上のロールバックを伴うワンタイムスイッチを可能にする。
さらに、SOMAの鍵成分に関する理論的分析を行う。
大規模な実験により, SOMAの有効性が示された。
ソースコードは、https://github.com/LabRAI/SOMA.comで提供されている。
関連論文リスト
- Self-Correcting RAG: Enhancing Faithfulness via MMKP Context Selection and NLI-Guided MCTS [5.711356514732554]
自己補正RAGは、制約付き最適化と経路計画として検索と生成を再構成する。
入力側では、コンテキスト選択を多次元多重選択knapsack問題(MMKP)として定式化する。
出力側では、自然言語推論(NLI)誘導モンテカルロ木探索(MCTS)機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T17:14:36Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [59.12542274007847]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。
LoopServeは、既存のベースラインに比べて一貫して優れた効率を実現している。
論文 参考訳(メタデータ) (2025-07-18T06:12:08Z) - Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。
本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。