論文の概要: Sparsity Is Necessary: Polynomial-Time Stability for Agentic LLMs in Large Action Spaces
- arxiv url: http://arxiv.org/abs/2601.08271v1
- Date: Tue, 13 Jan 2026 06:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.088201
- Title: Sparsity Is Necessary: Polynomial-Time Stability for Agentic LLMs in Large Action Spaces
- Title(参考訳): 大アクション空間におけるエージェントLDMの多項式時間安定性
- Authors: Angshul Majumdar,
- Abstract要約: ツール拡張LLMシステムは、学習理論が無視してきた制御体制を公開する。
我々は、この設定をスパースエージェント制御(SAC)として定式化し、M上のブロックスパース表現を認めるポリシーを定式化する。
部分可観測性の下では, LLM は信念/表現誤差 epsilon_b によってのみ重要となり, 付加的な O(epsilon_b) 劣化が生じる。
- 参考スコア(独自算出の注目度): 11.62669179647184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented LLM systems expose a control regime that learning theory has largely ignored: sequential decision-making with a massive discrete action universe (tools, APIs, documents) in which only a small, unknown subset is relevant for any fixed task distribution. We formalize this setting as Sparse Agentic Control (SAC), where policies admit block-sparse representations over M >> 1 actions and rewards depend on sparse main effects and (optionally) sparse synergies. We study ell_{1,2}-regularized policy learning through a convex surrogate and establish sharp, compressed-sensing-style results: (i) estimation and value suboptimality scale as k (log M / T)^{1/2} under a Policy-RSC condition; (ii) exact tool-support recovery holds via primal-dual witness arguments when T > k log M under incoherence and beta-min; and (iii) any dense policy class requires Omega(M) samples, explaining the instability of prompt-only controllers. We further show that under partial observability, LLMs matter only through a belief/representation error epsilon_b, yielding an additive O(epsilon_b) degradation while preserving logarithmic dependence on M. Extensions cover tuning-free, online, robust, group-sparse, and interaction-aware SAC.
- Abstract(参考訳): ツール拡張 LLM システムは、学習理論が無視された制御体制を公開している: 巨大な離散的なアクション宇宙(ツール、API、ドキュメント)によるシーケンシャルな意思決定。
我々は、この設定をスパースエージェントコントロール(SAC)として定式化し、M>1アクションに対するブロックスパース表現を許容するポリシーと報酬はスパースメインエフェクトと(任意に)スパースシナジーに依存する。
凸サロゲートによるel_{1,2}正規化政策学習について検討し、鋭く圧縮された感覚的な結果を確立する。
(i)政策RSC条件下でのk(log M / T)^{1/2}の推定と値準最適スケール
(ii)T>klogMが不整合およびβ-minの場合に、T>klogMが一次二重証人論を介して正確なツール支援回復を行う。
(iii)任意の密集ポリシークラスは、プロンプトのみのコントローラの不安定性を説明するために、Omega(M)サンプルを必要とする。
さらに, 部分可観測性の下では, LLM は信念/表現誤差 epsilon_b を通じてのみ重要であり, 付加的な O(epsilon_b) 分解を生じ, M への対数依存を保ちながら, M への対数依存を保っている。
関連論文リスト
- Greedy Is Enough: Sparse Action Discovery in Agentic LLMs [11.62669179647184]
経験的証拠は、少数のアクションだけが、所定のデプロイメントのパフォーマンスに有意義に影響を及ぼすことを示唆している。
この観察によって動機づけられた行動が構造化された空間性仮定によって制御される文脈線形報酬モデルについて検討する。
本研究は,スパース行動発見を大アクション意思決定の基礎となる基本原理とみなす。
論文 参考訳(メタデータ) (2026-01-13T07:15:32Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - T-REGS: Minimum Spanning Tree Regularization for Self-Supervised Learning [15.016777234800585]
自己教師付き学習(SSL)はラベル付きデータなしで表現を学習するための強力なパラダイムとして登場した。
最近の研究は、効果的な表現のための2つの重要な性質を強調している。
本稿では,学習表現上の最小スパンニングツリー(MST)の長さに基づくSSLのシンプルな正規化フレームワークであるT-REGSを紹介する。
論文 参考訳(メタデータ) (2025-10-27T16:16:40Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs [0.0]
我々は、機密情報の未学習と脱獄攻撃に対する堅牢性に対処する様々な制約付き最適化の定式化について検討する。
私たちが提案する最も単純なポイントワイド制約ベースの介入は、計算コストの低減を図りながら、最大最小の介入よりも優れたパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2025-10-03T23:32:21Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。