論文の概要: Atropos: Improving Cost-Benefit Trade-off of LLM-based Agents under Self-Consistency with Early Termination and Model Hotswap
- arxiv url: http://arxiv.org/abs/2604.15075v1
- Date: Thu, 16 Apr 2026 14:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.951033
- Title: Atropos: Improving Cost-Benefit Trade-off of LLM-based Agents under Self-Consistency with Early Termination and Model Hotswap
- Title(参考訳): Atropos:早期終了とモデルホットスワップによる自己整合下におけるLCM系エージェントの費用対効果トレードオフの改善
- Authors: Naryeong Kim, Shin Yoo,
- Abstract要約: アトロポスは予測的な早期終了分析とホットスワップ技術である。
自己整合性(self-consistency)を利用するLCMベースのエージェントのコスト対効果のトレードオフを改善することを目的としている。
ATROPOSは閉じたLCMの性能の74.35%を達成し、コストは23.9%に過ぎなかった。
- 参考スコア(独自算出の注目度): 4.950224736359097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-weight Small Language Models(SLMs) can provide faster local inference at lower financial cost, but may not achieve the same performance level as commercial Large Language Models (LLMs) that are orders of magnitudes larger. Consequently, many of the latest applications of LLMs, such as software engineering agents, tend to be evaluated on larger models only, leaving the issue of improving the cost-benefit trade-off of such applications neglected. This paper proposes Atropos, a predictive early-termination analysis and hotswap technique that aims to improve the cost-benefit trade-off for LLM-based agents that use self-consistency. The core component of ATROPOS is a predictive model based on structural properties of LLM inferences: after merging multiple agentic inference paths into a graph representation, ATROPOS uses Graph Convolutional Network (GCN) to predict whether an ongoing inference will eventually succeed or not. If an agentic task instance running on the source LLM is predicted to fail, ATROPOS subsequently performs hotswapping, i.e., migrating the on-going inference context onto the more capable target LLM: this is feasible because LLM contexts are stateless. An empirical evaluation of ATROPOS using three recent LLM-based agents shows that ATROPOS can predict early termination of eventually failing inferences with the accuracy of 0.85 at the midpoint of the inference. Hotswapping LLMs for such inferences can convert up to 27.57% of them to be successful. Consequently, ATROPOS achieves 74.35% of the performance of closed LLMs with as low as only 23.9% of the cost.
- Abstract(参考訳): オープンウェイト・スモールランゲージ・モデル(SLM)は、より低コストでより高速なローカル推論を提供することができるが、商業用大規模言語・モデル(LLM)と同等の性能を達成できない可能性がある。
その結果、ソフトウェアエンジニアリングエージェントのような最近のLLMのアプリケーションの多くは、より大きなモデルでのみ評価される傾向にあり、そのようなアプリケーションのコスト対効果のトレードオフを改善するという問題は無視されている。
本稿では,自己整合性を利用したLCMエージェントの費用対効果のトレードオフを改善することを目的とした,予測的早期終了分析とホットスワップ手法であるAtroposを提案する。
複数のエージェント推論パスをグラフ表現にマージした後、ATROPOSはグラフ畳み込みネットワーク(GCN)を使用して、進行中の推論が最終的に成功するかどうかを予測する。
ソースLLM上で動作するエージェントタスクインスタンスがフェールすると、ATROPOSはその後ホットスワッピングを行う。
3つのLSMをベースとしたエージェントを用いたATROPOSの実験的評価により、ATROPOSは最終的に失敗する推論の早期終了を予測でき、推論の途中の精度は0.85である。
このような推測のためのホットスワッピング LLM は、27.57% まで変換して成功させることができる。
その結果、ATROPOS は閉じた LLM の性能の74.35% を、23.9% のコストで達成した。
関連論文リスト
- LAET: A Layer-wise Adaptive Ensemble Tuning Framework for Pretrained Language Models [7.216206616406649]
BloombergGPTやFinMAのような大規模言語モデル(LLM)は、さまざまな財務NLPタスクに対して新しいベンチマークを設定している。
我々は,LLMの最も効果的な層を選択的に微調整する新しい戦略であるLayer-wise Adaptive Ensemble Tuning (LAET)を提案する。
提案手法は,財務NLPタスクにおいて,既存のベンチマークや最先端のLCMよりも優れた結果を示す。
論文 参考訳(メタデータ) (2025-11-14T13:57:46Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。