論文の概要: Local-Splitter: A Measurement Study of Seven Tactics for Reducing Cloud LLM Token Usage on Coding-Agent Workloads
- arxiv url: http://arxiv.org/abs/2604.12301v1
- Date: Tue, 14 Apr 2026 05:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.255349
- Title: Local-Splitter: A Measurement Study of Seven Tactics for Reducing Cloud LLM Token Usage on Coding-Agent Workloads
- Title(参考訳): Local-Splitter: 符号化処理負荷に対するクラウドLLMトークン使用量削減のための7つの手法の検討
- Authors: Justice Owusu Agyemang, Jerry John Kponyo, Elliot Amponsah, Godfred Manu Addo Boakye, Kwame Opuni-Boachie Obour Agyekum,
- Abstract要約: 本研究では,クラウドLLMトークンの使用量を削減するための7つの手法について,系統的な評価を行った。
1)ローカルルーティング、(2)プロンプト圧縮、(3)セマンティックキャッシュ、(4)クラウドレビューによるローカルドラフト、(5)ミニマルディフ、(6)構造化インテント抽出、(7)ベンダープロンプトキャッシュ。
私たちはオープンソースシムで7つすべてを実装し、Ollama経由でのローカルモデルとOpenAI互換エンドポイント経由でのクラウドモデルをサポートします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a systematic measurement study of seven tactics for reducing cloud LLM token usage when a small local model can act as a triage layer in front of a frontier cloud model. The tactics are: (1) local routing, (2) prompt compression, (3) semantic caching, (4) local drafting with cloud review, (5) minimal-diff edits, (6) structured intent extraction, and (7) batching with vendor prompt caching. We implement all seven in an open-source shim that speaks both MCP and the OpenAI-compatible HTTP surface, supporting any local model via Ollama and any cloud model via an OpenAI-compatible endpoint. We evaluate each tactic individually, in pairs, and in a greedy-additive subset across four coding-agent workload classes (edit-heavy, explanation-heavy, general chat, RAG-heavy). We measure tokens saved, dollar cost, latency, and routing accuracy. Our headline finding is that T1 (local routing) combined with T2 (prompt compression) achieves 45-79% cloud token savings on edit-heavy and explanation-heavy workloads, while on RAG-heavy workloads the full tactic set including T4 (draft-review) achieves 51% savings. We observe that the optimal tactic subset is workload-dependent, which we believe is the most actionable finding for practitioners deploying coding agents today.
- Abstract(参考訳): 本研究では,フロンティアクラウドモデルにおいて,小さな局所モデルがトリアージ層として機能し得る場合に,LLMトークンのクラウド使用量を削減するための7つの手法を体系的に評価する。
1)ローカルルーティング、(2)プロンプト圧縮、(3)セマンティックキャッシュ、(4)クラウドレビューによるローカルドラフト、(5)最小限の差分編集、(6)構造化インテント抽出、(7)ベンダープロンプトキャッシュによるバッチ処理。
MCPとOpenAI互換のHTTPサーフェスの両方を話し、OllamaによるローカルモデルとOpenAI互換のエンドポイントによる任意のクラウドモデルをサポートします。
本研究は,4つのコーディングエージェント・ワークロード・クラス (edit-heavy, explained-heavy, general chat, RAG-heavy) にまたがって,各戦術を個別に,ペアで,かつ,グレディ・アダプティブなサブセットで評価する。
トークンの保存、ドルコスト、レイテンシ、ルーティングの正確性を測定します。
我々の見出しは、T1(ローカルルーティング)とT2(プロンプト圧縮)が組み合わさって45~79%のクラウドトークンの節約を、RAG重負荷ではT4(ドラフトレビュー)を含む完全な戦術セットが51%の節約を達成していることです。
最適な戦術サブセットはワークロードに依存しており、今日のコーディングエージェントをデプロイする実践者にとって最も実用的な発見だと考えています。
関連論文リスト
- Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks [0.0]
本稿では、信頼性のあるローカルGPUとクラウドGPUのトランスフォーマーを分割する、プライバシーに配慮した大規模言語モデル(LLM)の実用的なシステムを提案する。
我々のシステムは、高速広帯域ネットワーク(WAN)上での自己回帰LDM復号化の独特な課題に対処する。
システムは4.9GBのローカルVRAMと7Bのスループットしか持たない大型モデルに一般化される。
論文 参考訳(メタデータ) (2026-02-18T14:13:08Z) - Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression [19.447797559761135]
学習後圧縮は大規模言語モデル(LLM)の計算コストとメモリコストを削減する
既存の圧縮ベンチマークは、言語モデリングと自然言語理解タスクのみに焦点を当てている。
圧縮がLLMのエージェント能力に与える影響を評価するための,最初の包括的なベンチマークであるACBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T02:49:07Z) - Distilling LLM Agent into Small Models with Retrieval and Code Tools [65.73762766854192]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - HERA: Hybrid Edge-cloud Resource Allocation for Cost-Efficient AI Agents [9.064429605488026]
AIの領域では、GPT-4のような大規模言語モデル(LLM)がAIエージェントの運用の中心であり、主にクラウドで運用されている。
ローカルベースの小型言語モデル(SLM)がより正確になるにつれて、クラウド排他的処理の必要性が再検討されている。
本稿では,AIエージェントのサブタスクを局所的なSLMとクラウドベースのLLMに自動的に分割する適応反復レベルモデルセレクタ(AIMS)を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:36:13Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。