論文の概要: SpecSteer: Synergizing Local Context and Global Reasoning for Efficient Personalized Generation
- arxiv url: http://arxiv.org/abs/2603.16219v1
- Date: Tue, 17 Mar 2026 07:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.159798
- Title: SpecSteer: Synergizing Local Context and Global Reasoning for Efficient Personalized Generation
- Title(参考訳): SpecSteer: 効率的なパーソナライズ生成のためのローカルコンテキストとグローバル推論の同期化
- Authors: Hang Lv, Sheng Liang, Hao Wang, Yongyue Zhang, Hongchao Gu, Wei Guo, Defu Lian, Yong Liu, Enhong Chen,
- Abstract要約: SpecSteerは非対称な協調推論フレームワークで、デバイス上のプライベートコンテキストとクラウドスケールの推論を相乗化する。
実験により、SpecSteerは推論のギャップを埋め、パーソナライズされた生成性能を向上することを示した。
- 参考スコア(独自算出の注目度): 79.75755802397312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realizing personalized intelligence faces a core dilemma: sending user history to centralized large language models raises privacy concerns, while on-device small language models lack the reasoning capacity required for high-quality generation. Our pilot study shows that purely local enhancements remain insufficient to reliably bridge this gap. We therefore propose SpecSteer, an asymmetric collaborative inference framework that synergizes private on-device context with cloud-scale reasoning. SpecSteer casts collaboration as Bayesian knowledge fusion and repurposes speculative decoding as a distributed alignment protocol, yielding a Draft--Verify--Recover pipeline: the on-device model drafts personalized sequences; the cloud validates via a ratio-based mechanism that decouples reasoning verification from private context, filtering logical flaws without accessing raw user context; upon rejection, a steering recovery injects local intent during correction. Experiments demonstrate that SpecSteer successfully closes the reasoning gap and achieves superior personalized generation performance, while delivering a 2.36x speedup over standard baselines.
- Abstract(参考訳): パーソナライズされたインテリジェンスの実現は、中核的なジレンマに直面している。 ユーザ履歴を集中型大規模言語モデルに送信すると、プライバシの懸念が高まる一方で、デバイス上の小さな言語モデルでは、高品質な生成に必要な推論能力が欠如している。
私たちのパイロット研究は、このギャップを確実に埋めるには、純粋に局所的な拡張が不十分であることを示しています。
そこで我々は、プライベートオンデバイスコンテキストとクラウドスケール推論を相乗化する非対称協調推論フレームワークSpecSteerを提案する。
SpecSteer氏はコラボレーションをベイズ的知識融合として実施し、投機的復号化を分散アライメントプロトコルとして再利用し、Draft--Verify--Recover Pipelineを生成する。 オンデバイスモデルドラフトはパーソナライズされたシーケンスを記述し、クラウドはプライベートコンテキストから推論検証を分離し、生のユーザコンテキストにアクセスせずに論理的欠陥をフィルタリングする比率ベースのメカニズムを介して検証する。
実験の結果、SpecSteerは推論ギャップを埋め、パーソナライズされた生成性能を向上し、標準ベースラインの2.36倍のスピードアップを実現している。
関連論文リスト
- Differentially Private and Communication Efficient Large Language Model Split Inference via Stochastic Quantization and Soft Prompt [33.701746954914135]
大規模言語モデル (LLM) は目覚ましい性能を達成し、かなりの研究関心を集めている。
既存のアプローチでは、送信前にトークンの埋め込みを難読化し、ローカルモデルを使ってデノナイズする方法が提案されている。
textbfDifferentially private and communication textbfEfficient textbfLLM split inference。
論文 参考訳(メタデータ) (2026-02-12T03:13:16Z) - ConfSpec: Efficient Step-Level Speculative Reasoning via Confidence-Gated Verification [0.2578242050187029]
ステップレベルの投機的推論はこのコストを軽減することを目的としていますが、既存のアプローチは長年のトレードオフに直面しています。
我々は、このトレードオフを解決する信頼性の高いケースケード検証フレームワークConfSpecを提案する。
論文 参考訳(メタデータ) (2026-01-28T05:58:05Z) - CHORD: Customizing Hybrid-precision On-device Model for Sequential Recommendation with Device-cloud Collaboration [28.97362695603172]
underlinetextbfDevice-cloudコラボレーション(textbfCHORD)を用いたシーケンシャルアンダーラインtextbfRecommendationのための underlinetextbfHybrid-precision underlinetextbfOn-device Model のカスタマイズフレームワークを提案する。
CHORDはバックプロパゲーションなしで動的モデル適応と推論を加速し、コストのかかる再訓練サイクルを排除します。
論文 参考訳(メタデータ) (2025-10-03T14:20:45Z) - SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment [49.86376148975563]
大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
論文 参考訳(メタデータ) (2025-09-04T06:50:47Z) - CoSteer: Collaborative Decoding-Time Personalization via Local Delta Steering [80.54309860395763]
CoSteerは、ローカライズされたデルタステアリングを通じてデコード時のパーソナライズを可能にする、新しいコラボレーティブフレームワークである。
トークンレベルの最適化をオンライン学習問題として定式化し、ローカルデルタベクトルがリモートLLMのロジットを動的に調整する。
このアプローチは、生のデータや中間ベクトルではなく、最後のステアリングトークンのみを送信することで、プライバシを保護します。
論文 参考訳(メタデータ) (2025-07-07T08:32:29Z) - Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。